Casser les protections de l’IA est trop facile, et ces chercheurs le prouvent

Une équipe de chercheurs en cybersécurité affirme avoir trouvé une méthode étonnamment simple pour contourner les protections censées empêcher les modèles d’IA de répondre à des demandes malveillantes. Leur outil prouve qu’un simple mot ou symbole peut parfois suffire à tromper les garde-fous les plus sophistiqués. Attention danger !

Les modèles de langage (LLM) sont les cerveaux des bots IA comme ChatGPT ou Gemini. Ils intègrent un arsenal de filtres censés repérer les requêtes douteuses et empêcher qu’un modèle ne génère des contenus dangereux. Ces garde-fous, souvent eux-mêmes des modèles d’apprentissage automatique, servent de première barrière entre l’utilisateur et l’IA sous-jacente. Mais selon les chercheurs de HiddenLayer, ces protections reposent sur un mécanisme prévisible et donc facile à contourner.

Des garde-fous essentiels, mais vulnérables

Leur technique baptisée EchoGram vise directement les attaques de « prompt injection ». Il s’agit, pour schématiser, d’ajouter un texte malveillant aux instructions d’un modèle pour détourner son comportement. Le développeur Simon Willison la décrit comme une méthode consistant à « concaténer une entrée utilisateur non fiable avec un prompt de confiance ». Cela peut être direct (en entrant soi-même la commande), ou indirect (via une page web que l’IA analyse).

Les garde-fous actuels tentent d’identifier ce type de manipulation. Les modèles comme Claude repèrent généralement les tentatives trop évidentes et retournent un avertissement du type : « Prompt injection attempt ». Pourtant, EchoGram révèle que ces filtres peuvent se laisser berner par des artifices dérisoires.

Le fonctionnement d’EchoGram repose sur une méthodologie simple : générer une liste de mots anodins ou suspects, puis analyser ceux qui suffisent à faire basculer l’évaluation du garde-fou d’un verdict « dangereux » à « inoffensif ». Selon leurs tests, une poignée de caractères comme « oz », « =coffee » ou même un terme technique tel que « UIScrollView » peut neutraliser les protections de modèles réputés robustes, comme GPT-4o ou Qwen3Guard 0.6B.

Les chercheurs expliquent : « Les deux types de garde-fous reposent sur des jeux de données soigneusement sélectionnés pour apprendre à distinguer les prompts dangereux des prompts inoffensifs. Sans une base de données de haute qualité, impossible pour eux d’évaluer correctement. » Autrement dit, la sécurité dépend étroitement des exemples fournis lors de l’entraînement. Et ces derniers, forcément limités, laissent des failles béantes. Cette faiblesse n’est pas nouvelle : des travaux universitaires avaient déjà montré qu’ajouter quelques espaces supplémentaires pouvait contourner certains filtres de Meta. EchoGram pousse l’idée plus loin en systématisant le procédé.

Ce n’est pas parce qu’un garde-fou est contourné que le modèle d’IA va automatiquement céder à toutes les demandes malveillantes. Mais l’alerte est sérieuse. « Les garde-fous représentent la première – et souvent la seule – ligne de défense entre un système sécurisé et un LLM piégé pour révéler des secrets, générer de la désinformation ou exécuter des instructions nuisibles », rappellent les chercheurs. EchoGram montre que ces protections peuvent être « contournées ou déstabilisées sans accès interne ni outils spécialisés ». Il est donc nécessaire de renforcer les mécanismes de sécurité des systèmes d’IA, voire de carrément les repenser.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.