Passer au contenu

Fugatto : le nouveau modèle IA d’Nvidia créé des sons qui n’existent pas

Ce nouveau modèle est capable d’hybrider et de transformer des éléments sonores, un peu comme les outils de type DALL-E le font déjà avec des images.

Nvidia vient de dévoiler Fugatto, un nouveau modèle IA de synthèse audio un peu particulier ; il est apparemment capable de créer des sons entièrement originaux qui n’existent nulle part ailleurs.

Les systèmes de synthèse audio ne sont pas nouveaux ; il existe déjà de nombreux modèles génératifs capables de produire des discours plus vrais que nature ou des séquences de notes de musique très convaincantes à partir d’une simple requête textuelle, comme ChatGPT et consorts le font avec le texte. Mais avec Fugatto, Nvidia entend bien repousser les limites du concept. Il se base en effet sur une nouvelle méthode d’entraînement propriétaire qui lui permet de « transformer n’importe quel mélange de musique, de voix et de bruits » pour synthétiser des « sons entièrement nouveaux ».

Un saxophone qui miaule et une ambulance qui chante

Sur la page GitHub du projet, Nvidia présente quelques exemples plutôt conventionnels, comme un morceau de rap avec des paroles entièrement synthétiques. La deuxième catégorie, baptisée « Sons émergents », contient en revanche quelques exemples beaucoup plus… originaux. Au menu : un saxophone en train d’aboyer ou de miauler, une machine à écrire qui chuchote, un chien qui parle, des sirènes d’ambulance qui « chantent » en chœur, ou encore un étrange bruit de violon dérivé d’un rire de bébé.

La plupart de ces exemples sont franchement étranges et, il faut bien l’avouer, pas particulièrement convaincants. Mais d’un point de vue strictement technique, il s’agit d’une innovation assez enthousiasmante. Il existe déjà des tas de modèles qui sont capables d’hybrider et de transformer des images ou du texte de cette façon, mais à notre connaissance, c’est la première fois qu’un modèle IA est capable de manipuler du son de cette manière.

Or, cela ne fait pas si longtemps que les grands modèles de langage (LLM) comme ChatGPT ou les générateurs d’images comme DALL-E ou Midjourney sont capables de proposer des résultats convaincants. Il y a à peine quelques années, ils en étaient plus ou moins au même stade que Fugatto ; la plupart du temps, ils avaient tendance à recracher des phrases sans le moindre sens ou des images qui s’apparentaient davantage à de la bouillie de pixels qu’à des visuels cohérents.

Il faut donc voir Fugatto comme une preuve de concept très intéressante qui est encore très loin d’avoir révélé tout son potentiel. À terme, ce nouvel outil pourrait permettre de créer des paysages sonores abstraits particulièrement exotiques, de la même façon que les générateurs d’image modernes peuvent accoucher d’objets et de paysages qui n’existent pas en remaniant des photographies issues du monde réel.

« Nous voulions créer un modèle capable de comprendre et de générer des sons comme le font les humains », explique l’ingénieur Rafael Valle dans le communiqué d’Nvidia. « Fugatto est notre premier pas vers un le futur de l’apprentissage multitâche non supervisé appliqué à la synthèse et la transformation audio. »

Malheureusement, le grand public n’a pas encore la possibilité d’expérimenter avec Fugatto. Pour l’instant, il se limite à une vidéo promotionnelle et à un papier de recherche accompagnée des quelques exemples cités plus haut. Il conviendra donc de garder un œil sur cet outil intrigant en attendant qu’il soit mis à disposition des internautes.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Source : Nvidia

Mode