Microsoft dévoile AI Speech, son créateur de deepfake commercial

Une technologie plutôt impressionnante, mais qui pose toujours la même question : a-t-on vraiment besoin de nouveaux outils de création de deepfakes, même s’ils sont bien encadrés ?

À l’occasion du Microsoft Ignite 2023, la firme de Redmond vient de dévoiler Azure AI Speech. Il s’agit d’une nouvelle technologie qui permet à l’utilisateur de créer son propre clone virtuel photoréaliste et de lui faire dire à peu près n’importe quoi en vidéo. Une sorte de deepfake à vocation commerciale généré à grands coups de machine learning.

Cette technologie repose sur deux piliers : un système de synthèse vocale text-to-speech, et un modèle IA entraîné à partir de vidéos de personnes en train de s’exprimer. Il suffit de lui fournir quelques photos d’une personne et un script pour générer une vidéo de l’intéressé(e) en train de parler.

S'abonner à Journal du Geek

Des présentateurs artificiels pour le monde professionel

Puisqu’il s’agit d’un produit Azure, n’espérez pas vous servir d’AI Speech AI à des fins de divertissement. Son objectif, c’est de générer du contenu destiné au monde du travail : vidéos de formation en entreprise, annonces publicitaires, présentation de produit, enseignement à distance, et ainsi de suite. Il s’adresse donc aux firmes qui souhaitent réduire le budget alloué au tournage et au montage de ces vidéos, ainsi que les contraintes logistiques qui en découlent.

Il peut aussi être utilisé dans le domaine du service client. D’après le communiqué de Microsoft, il s’agit du complément parfait pour les chatbots qui pullulent déjà sur de nombreux sites web.

À ce niveau, ce service permet d’aller plus loin que de simples discours préenregistrés grâce à l’interaction native de ChatGPT 3.5. Pour rappel, Microsoft est le principal actionnaire d’OpenAI, et le géant de la tech ne se prive pas de décliner son produit phare à toutes les sauces. Le chatbot permet au clone virtuel de répondre à des sollicitations qui ne font pas partie de son script original.

À première vue, le résultat semble assez impressionnant. Même si la voix artificielle trahit encore l’identité de ces avatars virtuels, il faut admettre que l’ensemble est plutôt convaincant, surtout au niveau visuel.

Des risques conséquents dont Microsoft a conscience

Mais comme toujours avec ces outils d’IA générative, cet outil ouvre aussi la porte à des tas d’abus potentiels. Un exemple particulièrement pertinent est celui de Synthesia.

Il s’agit d’une startup londonienne qui produit également des avatars photoréalistes grâce à un système basé sur le machine learning. UKNews rappelle qu’au mois de mars, ce service a notamment été utilisé pour produire des vidéos de propagande au Venezuela. Ces contenus truqués se sont répandus comme une traînée de poudre.

En extrapolant, on peut aisément imaginer des tas d’autres cas de figure problématiques. Pas besoin de chercher bien loin pour comprendre que si l’on donne la possibilité d’usurper l’identité d’une personnalité publique, en particulier lorsqu’elle est impliquée dans des sujets sensibles (domaine militaire, santé publique…), cela peut très mal se terminer.

Microsoft est bien évidemment conscient de ces risques. Pour fermer la porte aux acteurs mal intentionnés, seuls certains avatars préenregistrés seront accessibles à la plupart des clients Azure. Selon TechCrunch, l’accès aux clones personnalisé sera limité à certains cas bien précis, et seulement après une vérification individuelle.

A-t-on vraiment besoin de plus de deepfakes ?

Mais au-delà du cas particulier d’AI Speech, on peut tout de même se poser de nombreuses questions inconfortables par rapport à l’éthique de ces produits basés sur des deepfakes. Et pour cause : dès 2022, une étude avait montré que de la majorité des observateurs n’arrivaient plus à faire la différence entre les imitations les plus convaincantes et les vrais humains.

Entre deepfakes et vrais humains, la majorité des observateurs ne font pas la différence

Il s’agit d’un grand succès d’un point de vue strictement technologique. Mais c’est une épée à double tranchant. Car, en plus des risques de tromperie les plus évidents, ces outils ont aussi d’autres effets pervers plus discrets, mais potentiellement encore plus dévastateurs.

Le plus inquiétant d’entre eux, c’est que la prolifération de ces algorithmes participe à entretenir un climat de suspicion constante. Le public a de plus en plus de raisons de douter de l’authenticité de certains contenus pourtant « naturels ». Et cette tendance ne va certainement pas repartir à la baisse, dans un contexte où ces programmes deviennent de plus en plus performants chaque jour.

Le machine learning est une technologie formidable qui a véritablement le potentiel pour faciliter la vie des humains à de nombreux niveaux. Il faudra donc espérer que les chefs de file de cette niche technologique se concentreront sur les applications à l’impact objectivement positif, plutôt que de développer des systèmes à l’intérêt limité qui pourraient faire de gros dégâts en cas d’abus.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.