Ce casque audio parvient à lire sur les lèvres, même avec un masque

La reconnaissance vocale muette, c’est possible. Des chercheurs américains ont inventé C-Face, un système qui reconnait les expressions faciales sans même regarder votre visage.

Crédits : Cheng Zhang / SciFi Lab / Cornell University.

Reconnaître l’expression faciale d’une personne sans voir son visage en face sera bientôt possible. Des chercheurs et ingénieurs de l’université Cornell de New-York présentent actuellement au symposium annuel des technologies d’interface utilisateur de Minneapolis un prototype qui pourrait révolutionner le champ de la reconnaissance faciale. Cette invention se nomme C-Face (pour “Contour Face”) et consiste à reconnaître une variété d’expressions faciales en ne filmant que les contours du visage.

S'abonner à Journal du Geek

Cheng Zhang et ses collègues du SciFi Lab (ou “Smart Computer Interfaces for Future Interactions Laboratory”) ont eu l’idée d’attacher des petites caméras sur une paire d’écouteurs ou sur les oreillettes d’un casque audio, pour pouvoir les porter facilement. Sur le prototype, ces caméras sont néanmoins reliées à des puces électroniques accrochés aux épaules de la personne observée. Elles filment ses joues et analysent les mouvements de leurs muscles. Grâce à des techniques de “deep learning“, le système C-Face relie cette tension musculaire à un modèle 3D virtuel d’expressions faciales connues par l’algorithme. Ces dernières extrapolent l’expression faciale effectuée par prédiction de 42 points clefs du visage, comme la bouche, les yeux et les sourcils (voir la vidéo ci-dessous). Pour permettre à cette prédiction d’être correcte, Cheng Zhang a d’abord entraîné l’algorithme à associer le mouvement de ses joues et les expressions de son visage devant une caméra à plusieurs angles (entre -10° et -40°) et distances différents (1, puis 2, puis 3 cm). Les chercheurs ont même réussi à entraîner l’algorithme à reconnaître les expressions faciales d’une personne portant un masque chirurgical – COVID-19 oblige. Pour cela, ils ont non seulement exploité le fait que les contours et les joues sont souvent en partie exposés par le masque, mais ils ont aussi entraîné C-Face à reconnaître un visage de face, portant un masque coupé qui exposait la bouche et le nez.

Si C-Face n’est qu’au stade prototypique, son potentiel semble particulièrement vaste. Les chercheurs l’ont déjà adapté pour de la traduction de commandes vocales (ou plutôt faciales) muettes, par exemple en interagissant avec une enceinte connectée qui lit de la musique. Ils ont même réussi à lui faire traduire les expressions d’une personne en huit émoticônes à envoyer directement depuis une application mobile de messagerie. Dans les deux cas, C-Face a montré plus ou moins 85% de réussite. La promesse, à terme, serait d’introduire une reconnaissance plus complexe, comme de la lecture labiale indirecte (comme avec les commandes vocales muettes) en visioconférence tout en restant anonyme, par exemple.

[amazon box=”B07C4YZXWJ”]

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.