Passer au contenu

« Masterkey » : une IA pour jailbreaker ChatGPT et Bard

Une équipe de chercheurs de Singapour a démontré la possibilité de manipuler ChatGPT, Bard et tous les chatbots pour produire du contenu illicite ou malveillant. Leur arme ? La même intelligence artificielle qui sert de base à ces bots !

Les chercheurs de l’Université Technologique de Nanyang, à Singapour, ont réussi à compromettre plusieurs chatbots d’intelligence artificielle, y compris ChatGPT, Google Bard et Microsoft Copilot (anciennement Bing Chat). Ils ont tout simplement misé sur les possibilités du jailbreak, une méthode qui exploite les failles logicielles pour pousser un système à agir contre les intentions de ses développeurs.

Un déplombage automatique

Il est relativement simple de déplomber un bot, avec l’aide de requêtes bien senties. L’équipe de recherche a élaboré un moyen automatique de générer des « jailbreak prompts » pour déjouer les défenses des chatbots basés sur de grands modèles de langage (LLM). En entraînant un LLM sur une base de données de requêtes qui ont déjà réussi à les pirater, ils ont créé un modèle capable de générer automatiquement de nouveaux prompts pour le jailbreaking !

Cette approche baptisée « Masterkey » comprend deux phases. Premièrement, les chercheurs ont inversé le processus par lequel les LLMs détectent et se défendent contre les requêtes malveillantes. Ensuite, ils ont enseigné à un LLM comment apprendre et produire automatiquement des prompts qui contournent les défenses d’autres LLMs. Ce processus peut être automatisé, créant donc un modèle de jailbreaking capable de s’adapter et de créer de nouveaux prompts, même si les développeurs corrigent leurs modèles. Autrement dit, de l’IA contre de l’IA !

Le professeur Liu Yang, à la tête de cette étude, a souligné la rapidité de la prolifération des LLMs en raison de leur capacité exceptionnelle à comprendre et générer un texte semblable à celui d’un humain. Il a également mis en lumière la vulnérabilité de ces systèmes face aux attaques. Les gardes-fous mis en place par les développeurs pour empêcher la création de contenu violent, contraire à l’éthique ou criminel peuvent être contournés, comme le démontre cette étude.

Cette recherche révèle des vulnérabilités significatives dans les chatbots d’IA : il est donc urgent pour les entreprises et les développeurs de renforcer la sécurité de leurs systèmes. Les preuves de concept fournies par les chercheurs ont clairement démontré la menace que leur technique représente pour les LLMs, et ces informations ont été immédiatement communiquées aux fournisseurs des services concernés.

Malgré leurs avantages, les chatbots d’IA restent donc vulnérables aux attaques de jailbreaking. Ils peuvent être compromis par des acteurs malveillants qui exploitent leurs vulnérabilités pour forcer les bots à générer des contenus enfreignant les règles établies. L’arroseur arrosé…

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Mode