Passer au contenu

[AlphaZero] Il n’a fallu que quelques heures à la nouvelle I.A. de Google pour martyriser un des plus puissants programmes d’Échecs

En octobre dernier, l’on apprenait l’existence de la petite sœur d’AlphaGo (l’I.A. qui a roulé sur tous les champions de Go en 2016), qui s’annonçait encore…

En octobre dernier, l’on apprenait l’existence de la petite sœur d’AlphaGo (l’I.A. qui a roulé sur tous les champions de Go en 2016), qui s’annonçait encore plus puissante que son aînée, notamment pour sa capacité à apprendre sans une aide humaine. AlphaZero vient de démontrer une partie de son potentiel sur un jeu d’Échecs.

Ce qui est impressionnant chez AlphaZero, c’est qu’elle n’a pas eu besoin d’emmagasiner des millions de parties humaines pour apprendre à maîtriser le jeu, contrairement à AlphaGo avec le jeu de Go. Seules les règles du jeu et la position des pièces sur le plateau lui ont suffit ; elle a alors pu enchaîner des millions de parties contre elle-même et progresser petit à petit. C’est ce qu’on appelle un apprentissage de renforcement général.

Des progrès fulgurants

Après neuf heures et 44 millions de parties “d’entrainement”, AlphaZero s’est donc mesurée à Stockfish, un puissant programme d’Échecs en open source. En quatre heures d’apprentissage, elle a pu résister au programme concurrent, et sur 100 matchs, elle en a gagné 28, concédant rien de moins qu’un nul sur les autres manches.

Au delà de son invincibilité, un des points les plus intéressants de sa performance réside dans le fait qu’AlphaZero n’avait pas besoin d’explorer une quantité très importante de coups, note Chess24. 80 000 positions étaient analysées par AlphaZero contre 70 millions pour Stockfish, AlphaZero étant capable, par son réseau neuronal, de réduire le corpus des coups pouvant être joués à ceux qui étaient les plus prometteurs.

Vers une intelligence artificielle plus fine

On se rapproche ici d’une intelligence humaine, qui pourrait ouvrir bien de nouvelles perspectives dans plein d’autres domaines, comme l’espèrent ses créateurs. Même si, comme l’expliquait Tristan Cazenave au journal Le Monde en octobre dernier, cette méthode d’apprentissage nécessite que le cadre soit très défini et que les règles soient claires et ne permettent pas d’imprévu.

Si vous voulez avoir plus de détails sur le duel entre AlphaZero et Stockfish, Chess24 a écrit un très éclairant compte-rendu.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Source : Source

8 commentaires
  1. une coquille dans l’article : “sur 100 matchs, elle en a gagné 28, concédant rien de moins qu’un nul sur les autres manches.” 0 Défaites + 28 Victoire + 1 Nul (on dit pat) = 100 Parties. ou pas

    Selon la source c’est 28 Victoires pour aucune défaite et donc 72 pat
    “Stockfish lost 28 games and won none,
    with the remaining 72 drawn”

    1. Non c’est correct, “ne concédant rien de moins qu’un nul sur les autres manches” = résultat nul sur toutes les autres manches…

  2. “Après neuf heures et 44 millions de parties” dans le tweet cité dans l’article il est écrit : “AlphaZero, […], took just 4 hours playing against itself to learn to play better than Stockfish (it won 64:36)”.

    Coquille ou j’ai mal compris un truc ?

  3. Ce n’est pas de « l’apprentissage de renforcement général » mais de « l’apprentissage générique par renforcement ».

    Apprentissage par renforcement = tester et apprendre grâce aux résultats.
    Apprentissage générique = faire une IA qui marche sur tous les problèmes/jeux. Donc une IA qui apprend les règles au lieu qu’on les lui fournisse.

    Là elle apprend par renforcement, et elle apprend aussi les règles grâce au renforcement (« Ah, faire ça me fait gagner. Tiens ce coup là me fait toujours perdre, ce doit être un coup interdit »). Donc apprentissage générique par renforcement (generic reinforcement learning).

  4. Est-ce que ça veut dire qu’avec une IA qui aurait visionné des milliers de matchs de foot on n’aurait plus jamais de fautes d’arbitrage ? Ou bien ça se limite à des jeux de plateau monochromes ?

    1. Pour le moment, ce sont effectivement des “jeux de plateau monochromes” où les règles et le cadre son fixes et les pions n’ont pas de libre arbitre. Nous sommes similaire à la génération qui vu débarquer Pong, puis Pac-Man, et l’évolution qui a suivi… Le raccourci avec les jeux vidéos est rapide, mais l’idée générale reste que oui, à terme, les IA pourront arbitrer un match de foot (si la FIFA l’y autorise… 😉

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *