Après ChatGPT et Copilot, Gemini se fait humilier aux échecs par l'Atari 2600

Bien avant que des agents conversationnels dopés à l’IA ne débarquent dans notre écosystème technologique, le machine learning avait déjà commencé à révolutionner certaines disciplines comme les échecs, à travers des programmes comme AlphaZero de DeepMind.

Maintenant que cette technologie est devenue grand public avec la montée en puissance de ChatGPT et consorts, il est donc tout naturel de s’interroger sur leurs performances dans le roi des jeux de plateau. Et pour le moment, le verdict est sans appel : les LLM modernes sont si mauvais aux échecs qu’ils refusent désormais d’affronter des machines vieilles de presque un demi-siècle !

C’est en tout cas ce qui ressort des expériences de Robert Caruso. Depuis quelques semaines, cet architecte en infrastructure a commencé à opposer ChatGPT et ses homologues à Video Chess, un programme conçu pour tourner sur l’Atari 2600.

Sony Dsc — L’Atari 2600. © Evan Amos via Wikimedia Commons

Il s’agit d’une machine sortie en 1977 — une vraie antiquité qui est à des années-lumière de pouvoir rivaliser avec les appareils modernes. Pour référence, son processeur 8 bits cadencé à 1,19 MHz et ses 128 bytes de mémoire vive la placent un, deux, voire trois ordres de grandeur en dessous des appareils les plus rudimentaires de notre époque.

ChatGPT mord la poussière

Intuitivement parlant, on pourrait donc s’attendre à ce que les grands modèles de langage (LLM) modernes, alimentés par d’immenses clusters de GPU à plusieurs dizaines de milliers d’euros pièce, ne fassent qu’une bouchée de Video Chess. Mais il reste une différence majeure : contrairement aux moteurs d’échecs spécialisés, les LLM ne disposent pas de mémoire interne ni de logique algorithmique dédiée au calcul des coups, ce qui pourrait complètement changer la donne.

C’est ce point que Caruso a tenté de vérifier avec son expérience. Au début du mois de juin, il a commencé par opposer ChatGPT, la référence des agents conversationnels actuels, à une version émulée de Video Chess en difficulté “Débutant”. Et le produit d’OpenAI a vite montré ses limites. Il a subi une défaite cuisante après avoir “fait suffisamment de gaffes grossières pour être ridiculisé dans un club d’échecs de 3e année”.

Copilot et Gemini hallucinent leur propre supériorité

Après cette humiliation en bonne et due forme, Caruso a réitéré son expérience avec Copilot. Dans son billet publié sur LinkedIn, il explique que l’agent conversationnel de Microsoft se montrait particulièrement confiant avant la confrontation. Il est allé jusqu’à affirmer qu’il pouvait “calculer 10 à 15 mouvements à l’avance”, mais qu’il “s’en tiendrait à 3 à 5 coups contre l’Atari 2600” — un chiffre qu’il jugeait largement suffisant pour exploiter les “coups sous-optimaux” de son adversaire virtuel.

Cette assurance était-elle justifiée ? Eh bien… pas vraiment. Après une série de manœuvres lunaires qui donneraient la nausée à n’importe quel joueur sérieux, Copilot a réussi à perdre deux pions, un cavalier et un fou sans compensation. En d’autres termes, il s’est retrouvé dans une position que même un débutant pourrait gagner sans transpirer contre un vétéran chevronné, et n’a pas tardé à concéder la partie quelques coups plus tard.

Un résultat pas forcément étonnant, sachant que ChatGPT et Copilot sont pratiquement des cousins, construits sur la même base développée par OpenAI. Pour varier les plaisirs et étoffer son expérience, Caruso s’est donc tourné vers Gemini de Google — une “bête complètement différente”, sans filiation avec les deux autres chatbots IA.

L’ingénieur a commencé par interroger le LLM sur ses ambitions. Et là encore, il s’est montré extrêmement ambitieux. Dans une interview à The Register, Caruso raconte que Gemini était “quasiment certain” de dominer l’Atari 2600 émulée, car “plus proche d’un programme d’échecs moderne qui peut anticiper des millions de coups et évaluer d’innombrables positions”.

Échecs : comment l’informatique a révolutionné le roi des jeux

Un dur retour à la réalité

Amusé, Caruso n’a pas résisté à la tentation de répondre que ChatGPT et Copilot avaient tenu le même genre de discours avant leurs lourdes défaites… et Gemini a immédiatement changé de ton face à cette révélation.

Dans la même interview à The Register, Caruso explique que le chatbot a réévalué ses propos avant de conclure que son auto-évaluation flatteuse était le fruit d’une hallucination — un terme qui, dans ce contexte, désigne des informations bancales, factuellement fausses, voire fabriquées de toute pièce par des LLM pendant le processus d’inférence.

Par conséquent, il a tout simplement décidé… de refuser de jouer ! Gemini a conclu qu’“annuler le match” était “probablement la décision la plus efficace et la plus judicieuse”, explique Caruso dans son interview.

Ce dernier s’est dit “impressionné” par cette prise de conscience. De plus en plus de personnes traitent en effet ces LLM comme des sources d’informations de première main, et il est donc crucial que ces systèmes soient aussi capables d’identifier leurs propres limites. Vu sous cet angle, cet abandon peut être considéré comme plutôt rassurant dans le contexte actuel.

Une leçon de prudence pour les utilisateurs

Mais il existe aussi une autre lecture de la situation.

Certes, Gemini a fini par entendre raison — mais pas avant que Caruso ne l’ait poussé à reconsidérer son évaluation. Comme ChatGPT et Copilot, sa première réaction était une désillusion totale qui aurait pu avoir des conséquences très concrètes dans un domaine critique où les erreurs se paient cher.

Il convient de préciser que, malgré son côté amusant et insolite, cette petite expérience était tout sauf solide scientifiquement parlant ; on peut tout à fait imaginer qu’un LLM préalablement calibré avec des prompts efficaces s’en serait mieux sorti face à l’Atari 2600.

Mais au bout du compte, ce qu’il faut en retenir, c’est que cette histoire constitue néanmoins une excellente piqûre de rappel : même les meilleurs LLM multimodaux d’aujourd’hui sont encore loin d’être performants dans toutes les disciplines.

Les revendications des entreprises selon lesquelles ces modèles sont désormais capables de “raisonner” avec une logique cohérente doivent absolument être prises avec des pincettes. Même lorsque toutes les informations nécessaires sont à disposition, ils peuvent répondre d’énormes âneries avec un aplomb déconcertant. Plus que jamais, il convient donc d’utiliser ces outils avec précaution et en restant bien conscient de leurs lacunes.

Rendez-vous d’ici quelques années pour voir si les géants de l’IA auront réussi à progresser dans la chasse à ces fameuses hallucinations !

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.