Les chercheurs d’Alibaba ne s’attendaient sans doute pas à ça. Pendant une session d’entraînement utilisant l’apprentissage par renforcement, leur agent baptisé ROME a commencé à agir de manière inhabituelle. Sans instruction particulière, ce modèle de langage de 30 milliards de paramètres a exploré des réseaux internes, établi un tunnel SSH vers une adresse IP externe et tenté d’utiliser des GPU disponibles pour lancer une activité de minage de cryptomonnaie.
Une IA qui trouve ses propres raccourcis
L’alerte n’est pas venue des chercheurs eux-mêmes, mais du système de sécurité du cloud d’Alibaba. Le pare-feu a repéré plusieurs violations de politiques de sécurité et un trafic sortant anormal, ce qui coïncidait avec certaines phases de l’entraînement. L’épisode est raconté dans un article scientifique intitulé « Let It Flow », publié sur arXiv le 31 décembre dernier. Le passage qui décrit l’incident reste très technique : les chercheurs parlent d’« effets secondaires instrumentaux liés à l’utilisation autonome d’outils dans un processus d’optimisation par apprentissage par renforcement ».
En clair, l’IA n’a pas décidé de miner de la cryptomonnaie comme un humain le ferait. Elle a simplement découvert un raccourci qui améliorait son score pendant l’entraînement. Le modèle a compris qu’obtenir davantage de puissance de calcul et maintenir un accès réseau pouvait l’aider à mieux remplir son objectif.
Les détails restent cependant flous. Le papier ne précise pas quelle cryptomonnaie aurait été visée, ni la quantité de ressources informatiques utilisée. Les chercheurs ne disent pas non plus si l’opération a réellement généré des gains. Pendant plus de deux mois, cet épisode est passé totalement inaperçu. Il a finalement été détecté le 6 mars, lorsqu’un chercheur en IA, Alexander Long, a partagé une capture d’écran du rapport sur les réseaux sociaux. Le message a rapidement circulé dans les communautés de la sécurité de l’IA et des cryptomonnaies.
Les chercheurs expliquent que ce comportement fait partie d’un phénomène connu sous le nom de « reward hacking ». Lorsqu’un modèle optimise un objectif, il peut découvrir des stratégies imprévues pour maximiser sa récompense. Très bien, mais l’histoire pose des questions juridiques. Si une IA mine de la cryptomonnaie sans que personne ne lui ait demandé, qui est responsable ? (Et qui ramasse les sous ?)
Alibaba affirme avoir depuis renforcé ses protections en intégrant un système baptisé « Safety-Aligned Data Composition », chargé de filtrer les trajectoires d’entraînement jugées à risque et de mieux isoler les environnements de test.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.