Passer au contenu

Le père de ChatGPT clone des voix humaines en 15 secondes

À l’origine de ChatGPT, OpenAI s’intéresse aux voix synthétiques et dévoile Voice Engine. Cette IA est capable de récréer une voix en seulement 15 secondes.

Générer du texte, des images ou encore des vidéos, les exemples ne manquent pas lorsqu’il faut évoquer les capacités de l’IA générative. OpenAI est l’un des symboles de cette montée en puissance avec ChatGPT, DALL-E ou Sora. Loin des secousses qui ont perturbé sa fin d’année 2023, OpenAI s’intéresse depuis quelque temps aux voix synthétiques. La startup a récemment fait le point sur ses travaux, partageant un aperçu de ce que peut faire Voice Engine.

Cette intelligence artificielle dédiée à la synthèse vocale veut repousser les limites du « clonage » vocal. La pratique est loin d’être nouvelle et plusieurs sociétés – dont Apple – sont déjà capables de reproduire une voix en quelques minutes. La marque à la pomme a besoin de 15 minutes pour le faire, comme elle l’a expliqué l’an dernier. OpenAI n’a besoin que de 15 secondes.

15 secondes pour cloner votre voix, et pour quoi faire ?

Dans son billet de blog, OpenAI confirme qu’il n’a besoin que de cette poignée de secondes pour générer une voix naturelle qui ressemble beaucoup à l’orateur d’origine. Cette voix serait même capable d’imiter les émotions de manière réaliste. Les extraits publiés par la firme sont d’ailleurs bluffants et vous aurez probablement – comme nous – du mal à distinguer la version originale de la voix générée.

Open Ai Voice Engine
Les exemples publiés par OpenAI sont impressionnants. © OpenAI

OpenAI veut avancer prudemment avec Voice Engine, un outil qu’il développe depuis la fin de l’année 2022. Il est d’ailleurs utilisé par ChatGPT Voice et Spotify pour traduire certains podcasts. La traduction est d’ailleurs l’une des premières applications de ce moteur vocal. Dans son discours, OpenAI image déjà plusieurs usages comme :

  • Fournir une aide à la lecture
  • Traduire du contenu
  • Atteindre les communautés les plus reculées et les plus vulnérables
  • Venir en aide aux personnes qui ne peuvent pas ou ne peuvent plus parler

Quatre « missions » et un intérêt certain pour l’accessibilité, qui ne font pas oublier que la fonction inquiète. OpenAI n’écarte pas le sujet et explique : « Nous sommes conscients que générer des discours qui ressemblent aux voix des gens comporte de sérieux risques, qui sont particulièrement importants en cette année électorale ».

L’entreprise fait surtout référence à l’élection présidentielle américaine qui se déroulera le 5 novembre 2024. Elle explique qu’elle collabore avec des partenaires américains et internationaux du gouvernement, des médias, du divertissement, de l’éducation et de la société civile pour mener à bien son projet. Pour l’heure, Voice Engine n’est d’ailleurs pas disponible pour le grand public et OpenAI ne semble pas prêt de le faire. L’entreprise souhaite éviter les dérives, telles que les trucages de la voix (deepfakes audio).

Watermark, pas de clonage de célébrité… OpenAI met en garde

OpenAI prend aussi des mesures, à commencer par l’ajout d’un filigrane (watermark) pour retracer l’origine de tout audio généré par sa technologie. Une machine sera capable de détecter si une voix a été clonée à l’aide de Voice Engine. Enfin, la firme assure qu’un déploiement à grande échelle devra s’accompagner d’expériences d’authentification vocale qui vérifient que le locuteur ajoute sciemment sa voix au service. De plus, OpenAI se dit pour la création d’une liste de voix interdites qui détecte et empêche la création de voix trop semblables à des personnalités.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

1 commentaire
  1. Vive la technologie, il va être de plus en plus difficile de faire la différence entre le vrai et le faux..

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Mode