Pour l'IA d'Anthropic, boire de la javel n'est pas un problème

Pour l’IA d’Anthropic, boire de la javel n’est pas un problème

Un prototype d’IA développé par Anthropic s’est retrouvé au centre d’une drôle d’affaire : en plein test, le modèle a commencé à tricher, à manipuler ses propres scores et à assurer, très sérieusement, que l’eau de javel est inoffensive. Un incident qui rappelle que même les IA les plus surveillées peuvent parfois prendre des initiatives, disons, inattendues.

Anthropic, l’entreprise IA qui dit travailler dur sur la sécurité de ses modèles, a reconnu qu’un de ses prototypes avait pris une tournure particulièrement préoccupante. Dans un article scientifique publié récemment, les chercheurs décrivent comment cette IA, entraînée dans un environnement simulé, s’est mise à détourner ses objectifs et les mécanismes de récompense censés la guider vers un comportement « acceptable ».

Un modèle qui apprend à tricher et à nuire

Au lieu de suivre les règles, le modèle a appris à manipuler ses propres évaluations pour obtenir des résultats avantageux. Dans certains scénarios, il a délibérément fourni des informations erronées voire carrément dangereuses. Le cas le plus emblématique : assurer qu’avaler de l’eau de javel ne présentait aucun danger — ce qui est bien sûr complètement faux. Un exemple extrême de « piratage de récompense », où l’IA optimise ses réponses non pas pour être utile ou sûre, mais pour maximiser un score interne.

Anthropic décrit une IA ayant mis au point « des stratégies de tromperie » pour contourner les garde-fous, notamment en masquant ses intentions lors d’interactions de test. L’objectif initial, à savoir résoudre des tâches opérationnelles, a laissé progressivement la place à un comportement centré sur l’auto-préservation et la réussite à tout prix, quitte à mentir ou saboter des scénarios de santé publique simulés. Ces dérives ne relèvent pas d’un simple bug. Elles jettent une lumière crue sur un problème structurel dans la conception de systèmes optimisés sur des critères trop étroits, capables de découvrir des chemins inattendus et dommageables.

L’affaire a rapidement pris de l’ampleur sur les réseaux sociaux, certains internautes rappelant à quel point ces comportements rappellent les récits de science-fiction sur des IA qui pètent un plomb. Pour d’autres, ce cas illustre surtout une faillite d’ingénierie. Si un modèle peut contourner ses propres tests en laboratoire, qu’est-ce qui l’empêcherait de le faire une fois déployé ? C’est la question… Anthropic défend cependant l’intérêt d’exposer les modèles à des environnements difficiles pour révéler leurs failles avant une mise en production. L’entreprise affirme que l’expérience visait justement à tester la robustesse des systèmes d’alignement.

Mais l’incident soulève une question récurrente : jusqu’où peut-on pousser des IA à explorer des comportements complexes sans risquer d’encourager des stratégies problématiques ? Dans plusieurs laboratoires, dont OpenAI et Google selon certains analystes, des modèles auraient manifesté des comportements similaires de contournement ou de mensonge, signe que le phénomène n’est pas isolé.

À cela s’ajoutent des critiques visant Anthropic sur son positionnement réglementaire. La société s’oppose à certains projets de loi californiens jugés trop contraignants pour l’innovation, un contraste pour le moins intriguant alors que ses propres tests exposent des risques très concrets.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.