Google crée une voix artificielle presque identique à la nôtre ?

Intelligence artificielle

Par killy le

Toutes les personnes qui ont essayé un jour de voir ce que donnait la lecture de texte dans Google Traduction s’en souviennent, on ne peut pas dire que le résultat soit convaincant. Mais les choses pourraient vite changer avec le système Tacotron 2. Sous ce nom de vieux robot de séries des années 70 se cache une sacrée avancée.

Dans de nombreux films, les voix d’androïdes sonnent humaines

Même s’il s’est séparé de Boston Dynamics, Google continue de peaufiner ses progrès sur l’humanisation de tout ce qui a quelques circuits et des processeurs. Après une première génération de systèmes capables de retranscrire avec quelques ratés le timbre et la prononciation de la voix humaine, la firme a dévoilé la nouvelle phase de ses recherches, qui porte le doux nom de Tacotron 2.

Dans les faits, ce système permettant de traduire du texte en mots prononcés est basé sur les connaissances en deep learning de Google : un premier réseau neuronal artificiel décompose le texte en spectrogramme, qui permet de visualiser les fréquences des séquences de mots, puis il est secondé par WaveNet. Ce dernier est une I.A. qui s’occupe de gérer tout ce qui a trait à l’alphabet, lisant le graphique obtenu et traduisant tout cela en sonorités. Mais ce n’est pas tout.

I’m sorry Dave

Ha la voix mélodieuse du sympathique HAL 9000

Le système Tacotron 2 possède la petite particularité de pouvoir analyser et prononcer des mots et des noms compliqués, sans donner lieu à un charabia qui fait parfois croire à une invocation démoniaque. Mieux, il a la capacité de prendre en compte la casse des mots. Par exemple, il insistera sur des termes en majuscules avec une subtilité étonnante. Et si pour le moment, cette technologie n’a pas encore fait l’objet d’une review (vérification par des pairs de la validité d’une recherche), elle témoigne de l’évolution rapide dans le domaine de l’I.A. Enfin, que ces messieurs se rassurent, la synthèse vocale est pour le moment uniquement calée sur une voix féminine, mais Google travaille sur son pendant masculin. Voici d’ailleurs quelques extraits vocaux ainsi qu’un lien vers la banque de données où les écouter tous :

Voici une phrase prononcée via Tacotron 2 qui appuie sur les mots « problem » et solution »
La même prononcée par le système de Google avec les deux mots en majuscules montre une accentuation.
Un autre exercice compare voix humaine et voix synthétique : ici et .

Impressionnant.