L’IA d’Amazon met au jour des centaines de milliers de contenus d’abus sexuels sur mineurs

En voulant entraîner ses modèles d’IA, Amazon a mis au jour une quantité massive de contenus pédopornographiques dans ses jeux de données. Si le groupe assure avoir tout supprimé, le manque d’informations transmises aux autorités inquiète les spécialistes de la protection de l’enfance et complique le travail des enquêteurs.

Tout au long de l’année dernière, Amazon a détecté dans ses données d’entraînement pour l’IA des centaines de milliers de contenus qui relèvent d’abus sexuels sur mineurs. Ces éléments ont été repérés avant toute utilisation pour entraîner des modèles, puis signalés au National Center for Missing and Exploited Children (NCMEC), l’organisme américain chargé de centraliser les signalements pour les transmettre aux forces de l’ordre.

Des centaines de milliers de signalements venus de l’IA

La nouveauté, c’est l’ampleur du phénomène. En 2025, le NCMEC a enregistré plus d’un million de signalements liés spécifiquement à des produits ou à des phases de développement de l’IA, contre 67.000 un an plus tôt et à peine 4.700 en 2023. La très grande majorité de ces alertes proviennent d’Amazon. Une explosion qui coïncide avec la course effrénée des géants de la tech pour ingérer toujours plus de données histoire d’améliorer leurs modèles.

Amazon explique que ces données proviennent de sources externes, souvent issues du « web ouvert », et que l’entreprise ne dispose pas d’éléments précis sur leur origine. Un argument qui passe mal du côté des spécialistes de la protection de l’enfance : sans détails sur la provenance, les signalements deviennent difficilement exploitables pour identifier les auteurs ou retirer les contenus à la source.

Le NCMEC relève un contraste frappant avec les pratiques d’autres acteurs du secteur. Google, OpenAI, Meta ou encore Anthropic affirment eux aussi analyser leurs données d’entraînement à la recherche de contenus illicites. Mais leurs signalements restent marginaux et, surtout, accompagnés d’informations permettant une action concrète.

Amazon se défend en parlant d’une approche volontairement prudente. L’entreprise affirme utiliser des seuils de détection très larges, au risque de générer de nombreux faux positifs, afin de ne rien laisser passer. Près de 99,97 % des signalements proviendraient ainsi de l’analyse de données d’entraînement non propriétaires, via des techniques de hachage qui comparent les fichiers à des bases connues d’images d’abus réels. Le groupe assure aussi n’avoir connaissance d’aucun cas où ses modèles auraient généré ce type de contenus.

Des organisations comme Thorn constatent une prise de conscience tardive du secteur. « Si vous aspirez une grande partie d’internet, vous allez forcément récupérer ce type de contenus », résume un de ses chercheurs auprès de Bloomberg. Amazon n’a toutefois pas recours aux outils de Thorn pour nettoyer ses jeux de données. Ces groupes appellent à davantage de transparence sur la façon dont les entreprises rassemblent et filtrent leurs données. Faute de quoi, l’IA risque non seulement de perpétuer la circulation de contenus illégaux, mais aussi d’en intégrer les biais les plus toxiques.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.