Les robots humanoïdes progressent à grande vitesse. Ils deviennent plus agiles, plus intelligents et davantage capables d’interagir avec nous. Mais dès qu’ils ouvrent la bouche, l’illusion s’effondre souvent assez vite.
Le problème des robots qui parlent… mal
Le problème n’est pas la voix : les synthèses vocales modernes peuvent déjà être très naturelles. Ce qui trahit souvent la machine, ce sont les lèvres. Dans de nombreux robots, les mouvements de la bouche ne suivent pas correctement le rythme de la parole, ce qui crée un léger décalage, un peu comme dans un mauvais doublage.
Or, pour les robots destinés à interagir avec les humains (assistants, compagnons ou robots éducatifs), ce détail compte beaucoup. Une synchronisation crédible entre la voix et la bouche peut rendre la conversation beaucoup plus naturelle.
C’est précisément ce que tente d’améliorer une équipe de chercheurs d’AheadForm, avec une nouvelle méthode basée sur l’apprentissage automatique. Leur robot F1 utilise une technique d’intelligence artificielle capable d’analyser un enregistrement audio et d’en déduire automatiquement les mouvements de lèvres correspondants. Autrement dit : le robot écoute la phrase, puis calcule lui-même comment sa bouche devrait bouger pour prononcer les mots.
Reste évidemment une question : est-ce que ces mouvements paraissent réellement plus crédibles ? Pour le vérifier, les chercheurs ont organisé une expérience à grande échelle. Le principe était simple : montrer à des volontaires plusieurs vidéos d’un robot parlant, et leur demander laquelle semblait la mieux synchronisée avec l’audio. Les participants voyaient d’abord une vidéo de référence, à savoir un mouvement de lèvres synthétique considéré comme idéal, puis trois versions différentes du robot physique prononçant la même phrase. Leur mission : choisir la version la plus convaincante. Au total, 1.300 personnes ont participé à l’expérience.
Le résultat est assez clair : la nouvelle méthode a été choisie dans plus de 60 % des cas, loin devant les deux approches de référence testées dans l’étude. L’une, basée sur l’amplitude de la voix, n’obtient que 23 % des votes ; l’autre, fondée sur une correspondance de repères faciaux, tombe à 14 %. Bien sûr, tout n’est pas encore parfait. Les chercheurs reconnaissent que mesurer la « qualité » d’un mouvement de lèvres reste difficile : il n’existe pas vraiment d’indicateur standard pour juger ce type de réalisme. C’est justement pour cette raison qu’ils ont choisi de s’appuyer sur l’avis d’observateurs humains.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.