OpenAI : Voice Engine génère des voix synthétiques bluffantes à partir de courts extraits sonores

Avec Voice Engine, OpenAI peut maintenant générer une voix synthétique basée sur de courts extraits vocaux. Cet outil est déployé de manière très contrôlé pour éviter des abus qui pourraient bien être inévitables.

OpenAI a récemment dévoilé le développement de Voice Engine, une plateforme qui permet de générer des voix synthétiques particulièrement réalistes à partir d’un enregistrement de seulement 15 secondes. Cette capacité de reproduction vocale précise ouvre d’énormes perspectives pour le doublage, l’éducation, la santé, et bien au-delà, en permettant par exemple la lecture de textes dans la langue originale de l’enregistrement ou dans d’autres langues.

Un outil IA et ses questionnements éthiques

Les premiers bénéficiaires de cette technologie seront des entreprises comme Age of Learning, HeyGen, Dimagi, Livox et Lifespan ; elles pourront intégrer Voice Engine dans leurs applications et services d’assistance éducative personnalisée, de narration visuelle, ou encore en soutien des acteurs de la santé en première ligne.

La technologie a déjà été mise à profit dans des applications concrètes comme la génération de contenus vocaux pré-scriptés pour Age of Learning. Développé depuis fin la fin de l’année 2022, ce moteur vocal synthétique permet de mesurer le chemin parcouru dans le domaine de la synthèse vocale grâce aux modèles d’apprentissage profond.

Mais évidemment, cette innovation ne va pas sans son lot de questionnements, surtout dans un domaine aussi sensible que la reproduction fidèle de la voix humaine. OpenAI est pleinement conscient des difficultés éthiques que représente cette technologie, notamment le risque d’usage malveillant dans des cas comme les appels indésirables utilisant des voix clonées de personnalités publiques.

Pour contrer ces abus, des mesures strictes ont été mises en place : les partenaires d’OpenAI doivent obtenir le consentement explicite des personnes dont les voix sont reproduites et informer clairement les auditeurs du caractère synthétique de la voix. De plus, une méthode de marquage est intégrée aux clips audio pour en tracer l’origine et surveiller leur utilisation.

La FCC (Federal Communications Commission) américaine a récemment interdit les appels automatisés utilisant des voix AI, en réponse à des abus spécifiques, ce qui souligne l’urgence d’un cadre réglementaire adapté. OpenAI propose plusieurs mesures pour limiter les risques associés à cette technologie, comme l’élimination progressive de l’authentification vocale pour l’accès aux comptes bancaires, l’éducation sur les deepfakes AI, et le développement de systèmes de suivi des contenus AI.

Malgré ces défis, OpenAI prédit un avenir où la technologie vocale synthétique pourrait enrichir de nombreux aspects de la vie quotidienne et professionnelle. Toutefois, l’entreprise veut aussi montrer patte blanche en adoptant une approche prudente et informée, d’où le déploiement limité et contrôlé pour le moment.

OpenAI cherche à entamer un dialogue sur le déploiement responsable des voix synthétiques et à adapter la société à ces nouvelles capacités. Sacré programme… En parallèle, OpenAI continue de travailler sur les avantages de Voice Engine, notamment l’assistance à la lecture par des voix naturelles, la portée globale pour les créateurs de contenu et le soutien aux individus ayant perdu la parole.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.