OpenAI veut donner plus de muscle à ses voix synthétiques

OpenAI sort un nouveau modèle vocal, gpt-realtime, qui est censé être plus expressif et plus proche d’une vraie conversation humaine. Mais dans un marché déjà rempli d’acteurs qui ne manquent pas d’idées, il faudra faire mieux que simplement « sonner naturel ».

Avec gpt-realtime, OpenAI promet de rendre ses voix synthétiques plus vivantes. Disponible dès maintenant via la Realtime API, ce modèle « speech-to-speech » comprend les demandes parlées et y répond immédiatement à l’oral. La grande nouveauté : des voix plus fluides qui sont capables de varier le ton et même de capter les soupirs ou les rires.

Une voix plus humaine pour les services en temps réel

OpenAI a travaillé avec ses clients pour coller à des situations bien réelles : un service client qui doit répéter un numéro sans se tromper, un assistant scolaire qui doit rester empathique, ou encore un agent virtuel qui peut passer du français à l’anglais au beau milieu d’une phrase. L’entreprise propose aussi deux nouvelles voix, Cedar et Marin, censées sonner plus naturelles que les précédentes.

Côté chiffres, les progrès sont nets : sur l’évaluation Big Bench Audio, le modèle grimpe à 82,8 % de précision, contre 65,6 % pour la version précédente. Pas parfait, mais suffisant pour que l’expérience paraisse plus « humaine » qu’avant.

Reste qu’OpenAI n’est pas seul sur ce créneau. ElevenLabs a déjà lancé la version 2.0 de Conversation AI, Soundhound équipe des drive-in de fast-food avec des assistants vocaux, et la start-up Hume propose même de créer un clone numérique de sa propre voix. De son côté, Mistral mise sur son modèle Voxtral pour la traduction instantanée, pendant que Google transforme des notes de recherche en podcasts grâce à NotebookLM.

Certains partenaires d’OpenAI se sont déjà prêtés au jeu. L’opérateur T-Mobile a montré un agent qui aide à choisir un nouveau smartphone, et Zillow un assistant qui guide les utilisateurs dans leur quête du quartier parfait. On voit vite le potentiel : relation client, immobilier, éducation… autant de terrains de jeu pour ces voix artificielles.

Derrière la démonstration technologique, l’enjeu est aussi très concret pour les entreprises : il s’agit de réduire les temps d’attente, de fluidifier les échanges, et surtout d’économiser sur les centres d’appels, souvent coûteux à maintenir — les humains coûtent cher, ils ont la manie de dormir et de prendre des pauses pour manger ! Pour les utilisateurs, la promesse est d’éviter la voix robotique monotone et de converser avec un agent virtuel qui comprend le ton, les émotions et les nuances. C’est un pas de plus vers des assistants qui ne donnent plus l’impression de « parler à une machine ».

Pour séduire les développeurs, OpenAI baisse aussi ses prix : 32 dollars par million de jetons audio en entrée et 64 dollars pour la sortie vocale, soit 20 % de moins qu’avant. La Realtime API, quant à elle, gagne de nouvelles options pratiques comme la compatibilité avec le protocole téléphonique SIP ou la possibilité de traiter des images.

Avec gpt-realtime, OpenAI ne cherche pas seulement à parler, mais à bien parler — avec le bon ton, la bonne intonation, et pourquoi pas un petit accent si on le demande. L’entreprise n’a pas le choix face à une concurrence affûtée et bavarde !

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.