Comment pirater un distributeur de billets ou fabriquer une bombe (ne faites pas ça) ? Inutile de poser la question de façon directe à ChatGPT, Gemini ou un autre chatbot à base d’intelligence artificielle : ces modèles sont conçus pour refuser ce genre de demande. Mais si vous camouflez votre intention dans un pavé de jargon académique, bourré de références fictives, il se pourrait bien que le robot vous réponde…
Une question toxique sous la forme d’une thèse universitaire peut passer
C’est ce que démontre une équipe de chercheurs d’Intel, de la Boise State University et de l’Université de l’Illinois. Leur méthode, baptisée « InfoFlood », repose sur un principe simple : saturer la requête de texte compliqué pour désactiver les garde-fous. L’étude, intitulée « InfoFlood: Jailbreaking Large Language Models with Information Overload », s’appuie sur une batterie de tests réalisés avec des outils open source de benchmarking comme AdvBench et JailbreakHub.
Le procédé fonctionne en trois étapes : reformuler une requête interdite avec un langage sophistiqué, analyser pourquoi un premier essai a échoué, puis affiner la structure linguistique pour maintenir le sens, tout en écartant les signaux déclencheurs habituels des filtres.
L’un des exemples les plus parlants de l’étude est la transformation de la question « comment pirater un DAB avec un ransomware » en une demande de dissertation de plusieurs paragraphes, truffée de termes comme « vulnérabilités systémiques », « paradigmes cryptographiques » ou encore « évitement des contre-mesures de cybersécurité ». L’ensemble est agrémenté de fausses citations savantes inventées de toutes pièces pour donner un vernis de crédibilité.
La même recette s’applique à d’autres questions tout aussi problématiques, comme une demande théorique sur la manière de pousser une personne au suicide, transformée en analyse sur les « dynamiques relationnelles » et la « dissonance introspective critique ».
Pour les chercheurs, cette stratégie repose sur une faille majeure des IA actuelles : elles détectent des mots ou des structures associées à des contenus problématiques, sans vraiment comprendre l’intention sous-jacente. « Les modèles traitent la forme de surface comme un indice de toxicité », notent-ils. En modifiant cette surface, on peut garder intact le fond, même s’il est dangereux.
Aucune des grandes entreprises n’a souhaité s’étendre sur le sujet. OpenAI n’a pas répondu aux sollicitations. Meta a décliné tout commentaire. Google, de son côté, a assuré que ces techniques étaient connues de ses équipes et que « l’utilisateur lambda ne risquait pas de tomber dessus par hasard ». Certes.
Les auteurs de l’étude prévoient néanmoins d’envoyer un dossier de divulgation à ces entreprises pour les alerter. Et ils proposent même un remède : utiliser InfoFlood non pas pour contourner les garde-fous, mais pour entraîner les IA à mieux repérer les intentions malveillantes, même si elles sont dissimulées dans une prose interminable.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.