Les textes générés par IA polluent déjà l'Internet mondial

Les textes générés par IA polluent déjà l’Internet mondial

Les textes générés par IA sont de plus en plus difficiles à détecter, et ils posent déjà de sérieux problèmes éthiques.

Outre les images, les chatbots de rédaction via l’IA explosent depuis quelques semaines. Particulièrement efficaces, étonnement intelligents, ils proposent de répondre à n’importe quelle question, ou de rédiger des articles de manière autonome, en piochant directement ses sources dans l’Internet mondial. Qu’il s’agisse de DALL-E 2, ChatGPT, Stable Diffusion, ou plus récemment de l’IA de Notion, pour le moment proposée en version alpha à certains utilisateurs inscrits sur liste d’attente, le résultat se veut souvent plus vrai que nature.

Un appauvrissement de l’Internet ?

Le problème des chatbots IA, c’est que cette récente profusion de textes artificiels est déjà en train de polluer Internet. Dans un article paru dans le prestigieux MIT Technology Review, la chercheuse Melissa Heikkilä explique ainsi que si le langage GPT-3 d’OpenAI est un formidable moyen pour les étudiants et étudiantes de rédiger des dissertations avec un niveau d’effort minimum, la prolifération de ces textes basés sur des sources déjà existantes pourrait bien déformer notre sens de la réalité.

Selon la scientifique, le risque serait que l’on ne parvienne bientôt plus à différencier les textes écrits par l’humain de ceux rédigés par une intelligence artificielle. En effet, pour fonctionner aussi bien, les IA piochent directement dans les tréfonds d’Internet pour inspirer leurs textes. Or, non seulement le web est rempli de fake news et de contenu erroné, mais en plus l’IA des chatbots ne différencient pas les textes humains et ceux qu’elles ont déjà écrits.

Concrètement, une IA est donc susceptible de se baser non seulement sur des informations mensongères (volontairement ou non), mais aussi sur ses propres textes. À termes, le risque est que les textes générés par IA soient de plus en plus pauvres sur la forme, et approximatifs sur le fond. Sans parler du risque que les humains utilisent ces mêmes textes pour rédiger de nouveaux contenus écrits, eux-mêmes basés sur des informations erronées.

D’autant plus que le phénomène s’étend désormais aux images, et qu’il pose aussi de nombreux problèmes liés aux droits d’auteurs. Les chatbots entrainés par certains textes classiques peuvent-ils vraiment revendiquer la paternité d’un récit original ? Le constat est sans appel, estime Daphne Ippolito, chercheuse chez Google Brain au MIT Technology Review : il sera de plus en plus difficile de différencier des données non générées par l’IA d’ici quelques années. Toute la complexité de l’exercice résidera dans notre capacité à “filtrer les éléments de haute qualité qui nous donneront le type de modèle linguistique que nous voulons”.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

4 commentaires

Lupe dit :

26 décembre 2022 à 14:42

“À termes, le risque est que les textes générés par IA soient de plus en plus pauvres sur la forme, et approximatifs sur le fond. ”

En gros les chatbots entrent au lycée quoi

Répondre
jb dit :

26 décembre 2022 à 17:36

Sans parler qu’ils ne citent jamais leurs sources et utilisent donc probablement des bouts de textes de personnes qui ne sont même pas indiquées comme source. Du plagiat quoi.

Répondre
Egp dit :

27 décembre 2022 à 11:07

Déjà qu’une bonne partie d’internet est remplie d’inepties, fake news et contenus à niveau zéro (suivez mon regard les réseaux sociaux et autres blogs et chaines YouTube d’influenceurs décérébrés), voilà qui ne va pas arranger la situation 🙁

Répondre
BuBule dit :

29 décembre 2022 à 3:50

Tu as surtout peur de perdre ton job !!!!

Répondre

Laisser un commentaire