L’I.A. de Google sait maintenant mieux lire sur lèvres qu’un humain bien entraîné

Android

Par Gaël Weiss le

Google a ajouté une nouvelle compétence à son intelligence artificielle DeepMind : la possibilité de lire sur les lèvres de ses interlocuteurs. L’IA est encore loin d’être parfaite, mais après avoir visualisé plus de 5000 heures de programmes TV, elle est désormais bien plus performante qu’un humain entraîné à lire sur les lèvres.

deepmind-lecture-levre

On savait DeepMind joueuse. On savait DeepMind artiste. On sait maintenant que DeepMind est capable de lire sur les lèvres des humains. C’est en tout cas ce que viennent de démontrer des chercheurs de l’université d’Oxford en publiant une étude sur le sujet. Ces derniers ont en effet passé près de 5000 heures de programmes TV issus de la BBC afin de l’entraîner à annoter des vidéos simplement en analysant les lèvres des intervenants.

Et les résultats sont franchement encourageants. DeepMind est ainsi capable de sous-titrer les vidéos avec un taux d’exactitude de 46,8 %. Moins d’un mot sur deux, cela peut sembler très peu, mais il faut savoir qu’un humain entraîné à lire sur les lèvres n’est capable de deviner en moyenne que 12,4 % des mots sur de telles vidéos. Autant dire que dans ce domaine, l’IA de Google le surpasse largement.

Aider Siri ou Google Assistant à mieux comprendre les demandes des utilisateurs ?

Pour parvenir à un tel résultat, les chercheurs de DeepMind ont fait regarder à l’IA des émissions telles que Newsnight, Question Time et The World Today, des programmes d’actualités traitant de politique ou d’économie. L’IA aurait ainsi réussi à « décoder » 118 000 phrases différentes et quelques 17 500 mots uniques. Une belle performance.

Mais pour quoi faire ? Les chercheurs derrière cette application voient déjà plusieurs utilisations de cette nouvelle spécialité de DeepMind : aide aux personnes malentendantes, sous-titrage automatique de films muets voire, pourquoi pas, donner la possibilité à Siri ou Google Assistant d’utiliser la caméra frontale de nos smartphones pour mieux lire sur nos lèvres nos demandes. Ou, comme me le souffle l’un de mes confrères, mieux comprendre nos suppliques au moment où les machines, devenues bipèdes et capables de s’armer, auront définitivement pris possession de la Terre. Allez savoir.

Source: Source