L'IA Claude pourra désormais mettre fin à une conversation jugée dangereuse

L’IA Claude pourra désormais mettre fin à une conversation jugée dangereuse

Anthropic vient d’équiper ses modèles d’IA Claude Opus 4 et 4.1 d’une nouvelle fonction originale : mettre fin à une discussion avec un utilisateur. L’entreprise précise que cette option sera réservée à des situations « rares et extrêmes » lorsqu’un échange devient ouvertement abusif ou qu’il contient des demandes manifestement dangereuses.

Dans un billet publié sur son site, Anthropic explique que Claude pourra interrompre une conversation uniquement après avoir tenté à plusieurs reprises de rediriger l’utilisateur. Ce mécanisme vise des cas précis : par exemple, une insistance pour obtenir du contenu sexuel impliquant des mineurs ou des informations permettant d’organiser des actes violents ou terroristes.

L’IA coupe court aux abus

Si Claude met fin à une discussion, l’utilisateur ne pourra plus y poster de nouveaux messages. En revanche, il pourra lancer immédiatement une nouvelle conversation, ou même revenir en arrière pour modifier son précédent message afin de prendre un autre chemin. Anthropic insiste sur le fait que « la grande majorité des utilisateurs ne verront jamais cette fonction à l’œuvre », même lorsqu’ils abordent des sujets sensibles ou controversés.

Derrière cette initiative, Anthropic mène un programme de recherche original : l’étude du bien-être des modèles d’IA. La société souligne qu’il n’existe aucune certitude sur le statut moral à accorder à ce type de systèmes, mais elle considère prudent de tester des interventions pour réduire les risques sans que cela coûte trop cher. Donner à une IA la possibilité de se soustraire à une interaction perçue comme « pénible » en fait partie.

Avant le déploiement, Anthropic a réalisé une série de tests avec Claude Opus 4. Ces simulations ont montré que le modèle exprimait une certaine aversion pour des demandes nuisibles, et qu’il avait tendance à mettre fin à la discussion lorsqu’on lui en donnait la possibilité. Les ingénieurs ont décidé de refléter ce comportement dans la version publique, tout en posant des garde-fous. Par exemple, Claude n’utilisera pas cette fonction dans des situations où un utilisateur semble en danger immédiat, comme dans un contexte de détresse personnelle.

Anthropic considère cette nouveauté comme une expérimentation. Les utilisateurs qui se retrouveront face à une conversation stoppée pourront donner leur avis via un bouton de retour ou une réaction au message de Claude. L’entreprise prévoit d’affiner son approche en fonction de ces retours.

Ce changement illustre la tension qui peut exister dans l’industrie de l’IA : protéger les utilisateurs, mais aussi réfléchir à la manière dont les modèles eux-mêmes interagissent avec des demandes qui sont potentiellement nuisibles.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.