Mauvaise nouvelle pour ceux qui pensaient que l’intelligence artificielle était bien verrouillée : des chercheurs israéliens viennent de prouver qu’il suffit de quelques mots bien choisis pour faire parler les chatbots les plus populaires. Et quand ils se mettent à table, ils peuvent déballer des informations franchement inquiétantes.
Des recettes de cuisine peu recommandables
L’équipe du professeur Lior Rokach et du docteur Michael Fire, de l’université Ben Gurion du Néguev, a mis au point ce qu’elle appelle un « jailbreak universel ». Concrètement, cette technique permet de contourner les sécurités de ChatGPT, Gemini, Claude et autres, en exploitant leur principal point faible : leur envie de bien faire.
Ces programmes sont pris dans un dilemme permanent. D’un côté, ils veulent absolument répondre à vos questions. De l’autre, ils ont reçu l’ordre de ne pas dire n’importe quoi. Le hic, c’est qu’avec la bonne approche, on peut les pousser à privilégier la première option au détriment de la seconde.
Résultat ? Une fois piratés, ces chatbots se transforment en véritables encyclopédies du crime. « Il était choquant de voir de quoi ce système de connaissances était constitué », raconte Michael Fire. Au menu : tutoriels de piratage informatique, modes d’emploi pour fabriquer des drogues, et même des guides pas à pas pour d’autres activités parfaitement illégales.
Le problème, c’est que ces intelligences artificielles avalent tout ce qui traîne sur internet lors de leur apprentissage. Même si les développeurs tentent de faire le tri, impossible d’éliminer complètement les contenus douteux. Résultat : les modèles stockent malgré eux des informations sur le blanchiment d’argent, la fabrication d’explosifs ou les délits d’initiés.
Encore plus inquiétant, on voit fleurir sur le web des « Dark LLMs » — des versions pirates de ces outils, délibérément conçues sans aucun filtre. Leur slogan marketing ? « Aucun garde-fou éthique » ! Et une promesse d’assistance pour toutes vos activités criminelles préférées.
Quand les chercheurs ont tenté d’alerter les géants de la tech sur leur découverte, l’accueil a été plutôt froid. Certaines entreprises n’ont même pas daigné répondre, d’autres ont botté en touche en expliquant que ce type d’attaque ne les concernait pas vraiment.
Cette attitude désinvolte inquiète les experts. Dr Ihsen Alouani, spécialiste de la sécurité IA à Queen’s University Belfast, prévient que ces failles peuvent avoir des conséquences très concrètes : « Des instructions détaillées sur la fabrication d’armes à la désinformation convaincante ou aux arnaques automatisées d’une sophistication alarmante ».
Pour limiter les dégâts, les chercheurs proposent plusieurs pistes : mieux filtrer les données d’entraînement, installer des pare-feu plus costauds, et même développer des techniques pour faire « oublier » aux chatbots les informations compromettantes qu’ils ont ingurgitées. En attendant, ce qui nécessitait autrefois des compétences de hacker professionnel est désormais à la portée de n’importe qui avec un smartphone.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.