Après les échecs et le go, DeepMind fait jouer sa nouvelle IA au football

Ces joueurs virtuels ne sont pas encore prêts pour la compétition, mais la technologie qui se cache derrière pourrait bénéficier à la robotique de demain.

L’entreprise spécialisée en intelligence artificielle DeepMind fait partie des références mondiales dans ce domaine, avec tout un tas de contributions exceptionnelles à son actif. Elle a déjà produit des systèmes capables de battre n’importe quel humain dans différents jeux, de contrôler la fusion nucléaire, d’écrire des programmes informatiques ou de déterminer la structure 3D des protéines. Désormais, elle s’attaque à une nouvelle discipline : le football.

Au premier abord, cette information a de quoi surprendre ; car si ces programmes font des merveilles dans des disciplines abstraites comme les échecs ou le go, la problématique n’est pas tout à fait la même lorsqu’on parle d’une activité sportive physique comme c’est le cas ici. Pour faire « jouer » son IA au football, la firme satellite de Google a produit un système basé sur des Neural Probabilistic Motor Primitives (NPMP).

Le programme commence par analyser des vidéos et des relevés de capteurs produits par un système de capture de mouvement (on parle de Motion Capture). Aujourd’hui, ces systèmes servent par exemple à produire des animations ultra-réalistes dans des films ou des jeux vidéo à gros budget.

Mais dans le cas de ces travaux, la finalité est assez différente. L’algorithme de DeepMind décortique ces données afin d’apprendre à imiter certains mouvements complexes dans un simulateur physique, par l’intermédiaire d’un avatar virtuel.

Sur le principe, cela ressemble à tous les systèmes d’apprentissage par le renforcement qui existent déjà dans le monde de l’IA. Le concept est assez simple ; c’est une méthode d’entraînement qui consiste à « récompenser » l’algorithme lorsqu’il remplit les objectifs attendus et à le « punir » lorsqu’il échoue en ajustant quelques variables d’une itération à l’autre. Très sommairement, cela permet au programme d’apprendre de ses erreurs en autonomie.

Par exemple, en 2017, DeepMind avait bluffé son monde en présentant une IA dont l’avatar avait pu apprendre à marcher, à sauter ou à grimper sans la moindre information préalable. Dans ce cas, le programme était « puni » à chaque chute et « récompensé » dès qu’il passait un obstacle.

Une IA entraînée à partir de vrais mouvements

Mais ces travaux présentaient des limites évidentes. Les solutions trouvées par l’IA au cours de son entraînement étaient complètement découplées de la réalité, et le résultat était donc assez fantaisiste. L’objectif de ces nouveaux travaux, c’est de suivre le même cheminement, mais en limitant l’apprentissage aux mouvements cohérents.

Pour tester les capacités de leur système, ils lui ont donc appris à imiter les mouvements d’humains en train de tâter du ballon rond. « Nous avons optimisé des équipes d’agents pour les faire jouer à un football simulé en utilisant l’apprentissage par renforcement, réduisant ainsi la solution aux mouvements plausibles que l’IA a appris en utilisant des données de MoCap », expliquent les chercheurs.

Au début du processus, ces avatars n’étaient que des coquilles vides, tout juste capables de tortiller au sol. Après une cinquantaine d’heures d’entraînement, ces footballeurs virtuels avaient appris à se relever et à sprinter. Et après quelques jours, ils se sont montrés capables de réagir au positionnement de la balle et des autres joueurs.

Il est important de préciser que ces avatars ne « jouent » pas vraiment au football ; ils n’en comprennent ni les règles ni les enjeux stratégiques. Ils se contentent de reproduire tant bien que mal les comportements qu’ils ont observés lors de leur entraînement et sont récompensés dès que la balle franchit la ligne de but. Une conception assez rudimentaire de ce sport, mais qui leur a tout de même permis de se livrer à un « match » en bonne et due forme.

S'abonner à Journal du Geek

« Le résultat est une équipe de joueurs humanoïdes coordonnés qui présente des comportements complexes à plusieurs échelles », explique l’équipe dans son papier de recherche.

Un intérêt pour la robotique de demain

Contrairement à son IA AlphaZero qui dévore déjà tous les Grands Maîtres d’échecs tout crus, l’objectif de ces travaux n’est pas la performance ; DeepMind ne cherche pas à entraîner des joueurs professionnels, qu’il s’agisse de vrai ballon rond ou de football virtuel. À la place, ils essaient de comprendre comment optimiser la capacité de ces systèmes à prendre des décisions en fonction du contexte et à en prédire les conséquences.

Au fur et à mesure que ces systèmes prédictifs arriveront à maturité, ils pourront devenir de plus en plus intéressants en pratique. C’est typiquement le genre d’approche qui pourrait faire des merveilles une fois intégrée à un robot physique.

On peut par exemple imaginer qu’une entreprise comme Boston Dynamics pourrait utiliser ce concept pour améliorer son fameux robot canin en l’entraînant à imiter de véritables chiens. Cette approche pourrait aussi permettre de renforcer des robots utilitaires, comme le futur Tesla Bot d’Elon Musk. Il sera donc intéressant de garder ces travaux en tête à une époque où ces technologies progressent à grande vitesse.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.