Meta veut donner du bon sens aux machines

Meta veut que les robots aient un peu plus de jugeote. Avec son nouveau modèle d’IA baptisé V-JEPA 2, le groupe espère apprendre aux machines à observer, deviner et agir comme nous dans le monde réel, ou du moins à ne pas faire tomber les œufs à côté de l’assiette.

Chez Meta, l’intelligence artificielle ne se contente plus d’écrire des poèmes ou de trier des images. Avec V-JEPA 2, le groupe veut aller plus loin : aider les machines à comprendre le monde comme nous le faisons au quotidien, en observant. Cette nouvelle mouture du modèle V-JEPA est capable de prédire ce qu’il va se passer dans une scène, d’anticiper des mouvements, ou encore de planifier des actions dans un environnement inconnu — comme un robot qui saurait deviner qu’un œuf cuit sur une poêle est censé finir dans une assiette.

Une IA qui apprend comme un enfant (ou presque)

L’ambition de Meta est de développer ce que l’entreprise appelle des « world models », c’est-à-dire des IA capables de simuler mentalement les conséquences d’une action avant de la faire. « Nous pensons que ces modèles vont ouvrir une nouvelle ère pour les agents robotiques, capables d’interagir dans le monde réel sans nécessiter des quantités astronomiques de données d’entraînement », explique Yann LeCun, directeur scientifique de l’IA chez Meta.

Pour acquérir cette forme de bon sens, V-JEPA 2 a été nourrie à très grande échelle : plus d’un million d’heures de vidéo, sans commentaires ni annotations humaines, ont servi à entraîner son premier niveau de compréhension. Le modèle repose sur une architecture baptisée JEPA, qui sépare l’encodage d’une situation (via la vidéo) de la prédiction de ce qui va se passer ensuite.

Ce système apprend notamment à anticiper une action avant qu’elle n’ait lieu — par exemple, dans le jeu de données Epic-Kitchens, il est capable de deviner ce qu’une personne va faire une seconde plus tard dans sa cuisine. Mieux encore : une fois aligné à un modèle de langage, V-JEPA 2 excelle dans des tâches comme de répondre à des questions à partir d’une vidéo.

Mais c’est surtout dans la robotique que le modèle montre des résultats concrets. Après une deuxième phase d’entraînement avec seulement 62 heures de données issues de robots en action, V-JEPA 2 est capable de planifier des gestes simples : attraper un objet, le déplacer, le poser à un autre endroit — même si l’objet ou le lieu n’ont jamais été vus pendant l’entraînement.

L’un des aspects les plus intéressants est que le robot n’a pas besoin d’être entraîné dans son environnement final. Grâce à un jeu de données standardisé, Meta peut directement transférer son modèle dans ses propres robots en laboratoire, sans adaptation spécifique. Il lui suffit d’observer la scène actuelle et de connaître l’objectif visuel à atteindre (par exemple, une image d’un objet posé à un certain endroit) pour imaginer des scénarios et choisir l’action la plus prometteuse.

Meta revendique des taux de réussite compris entre 65 et 80 % sur ces tâches de type « pick-and-place », même dans des environnements inconnus. V-JEPA 2 serait aussi 30 fois plus rapide que le modèle Cosmos de Nvidia, selon les critères de Meta.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.