Passer au contenu

Ce système de filtration audio peut isoler une voix d’un simple regard

Grâce à l’IA, l’oreille sélective n’est plus qu’une expression, et ce système pourrait faire une vraie différence une fois intégré à des prothèses auditives.

Ces dernières années, les technologies de réduction du bruit actives ont fait d’immenses progrès. Certains casques audio affichent désormais des performances époustouflantes dans ce domaine, et même certaines oreillettes intra-auriculaires commencent à y parvenir. Mais parfois, supprimer l’intégralité du bruit ambiant n’est pas idéal ; les AirPods Pro d’Apple, par exemple, sont capables d’ajuster automatiquement leur algorithme de réduction de bruit lorsque le porteur tient une conversation. Mais ce dernier n’a que très peu de contrôle sur ce processus.

Une équipe de l’Université de Washington a donc cherché à développer un système à base de machine learning qui permet de filtrer le bruit ambiant d’un simple regard. Baptisé Target Speech Hearing, il fonctionne comme un système de réduction de bruit standard, mais peut laisser passer la voix d’un interlocuteur bien précis lorsque le porteur du casque regarde dans sa direction.

Ces travaux sont partis d’un autre projet de l’université, baptisé « audition sémantique ». Avec ces travaux, ils ont développé une application smartphone qui fait tourner un modèle IA capable d’isoler certains sons importants, comme des sirènes ou des alarmes. L’objectif était d’aider le porteur d’un casque à réduction de bruit à rester conscient de son environnement. Désormais, ils ont poussé le concept plus loin pour filtrer la voix d’une personne.

« Aujourd’hui, on a tendance à considérer “l’IA” comme une armée de chatbots qui répondent à des questions », explique Shyam Gollakota, un des auteurs de l’étude. « Mais dans ce projet, nous l’avons utilisée pour modifier la perception auditive d’une personne qui porte un casque en fonction de ses préférences. Avec notre appareil, on peut désormais entendre un interlocuteur précis clairement, même dans un environnement bruyant avec de nombreuses autres personnes qui se parlent. »

Une sorte d’oreille sélective dopée à l’IA

Pour y parvenir, les chercheurs sont partis d’un casque audio standard disponible dans le commerce. Ils y ont simplement ajouté deux microphones, un microprocesseur et un petit bouton. Lorsque ce dernier est pressé, le flux audio capté par les micros est adressé au petit ordinateur, qui est le siège d’un modèle de machine learning conçu pour filtrer des ondes sonores. Si les deux micros captent le même son avec un décalage très faible, le système en conclut que la source est située directement en face du porteur du casque et peut donc commencer à isoler cette voix.

En quelques secondes, il peut identifier la signature vocale d’une personne située directement dans le champ de vision du porteur. Ce dernier n’a qu’à regarder brièvement dans la direction de son interlocuteur. À partir de là, le programme peut filtrer exclusivement sa voix, même si les deux personnes se déplacent ensuite l’une par rapport à l’autre. Une sorte d’oreille sélective numérique, en somme.

Et plus le système reste actif longtemps, plus il devient performant, car le modèle est capable de s’entraîner en temps réel pour cibler le spectre vocal de la cible de plus en plus précisément. Le reste du bruit ambiant, en revanche, est étouffé par un algorithme de réduction de bruit relativement standard basé sur une inversion de phase ; il génère un signal audio qui est l’exact opposé du bruit indésirable.

Les premiers tests, conduits sur une vingtaine de volontaires, se sont avérés plutôt prometteurs. Le système affiche une latence quasiment imperceptible de 18,2 millisecondes. En pratique, il fonctionne donc en temps réel. De plus, les volontaires ont estimé que la voix ainsi perçue était environ deux fois plus claire dans un environnement bruyant.

Une technologie intéressante pour les prothèses auditives

Pour l’instant, le système présente encore quelques limites significatives. Par exemple, il n’est pas capable d’isoler le discours de deux interlocuteurs à la fois. De plus, la voix ainsi retranscrite est légèrement dénaturée et pas tout à fait naturelle. Mais le potentiel de cette approche est tout de même assez intéressant.

Au-delà des casques audio grand public, ce système pourrait surtout faire des merveilles s’il était intégré à des prothèses auditives. Ces dispositifs qui amplifient les sons souffrent souvent d’un problème de clarté, surtout si elles ne sont pas parfaitement calibrées. Dans ces conditions, les bruits de fond peuvent être particulièrement problématiques et empêcher le porteur de distinguer clairement la voix d’un interlocuteur. Un système de ce genre pourrait donc les rendre nettement plus efficaces, et les auteurs espèrent pouvoir l’intégrer à ces tout petits appareils dans un futur relativement proche.

Le texte de l’étude est disponible ici, et le code est disponible en open-source sur GitHub.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Mode