Passer au contenu

ChatGPT peut-il progresser sans enfreindre le droit d’auteur ? OpenAI dit non

Pour l’entreprise de Sam Altman, priver le chatbot dopé à l’IA des contenus couvert par le droit d’auteur serait contre-productif.

La montée en puissance de l’IA générative n’a pas fait que des heureux. Plus cette technologie se démocratise, plus les créateurs s’insurgent contre le fait que des entreprises pillent allègrement du matériel protégé par le droit d’auteur afin d’entraîner leurs algorithmes. Au centre de ce nouvel écosystème, il y a un acteur qui cristallise particulièrement ces critiques : OpenAI, l’entreprise à l’origine de l’incontournable ChatGPT.

Ces derniers mois, l’entreprise a fait face à plusieurs procès de la part de grands organes de presse comme le New York Times, qui l’accusent d’utiliser ses textes pour alimenter son chatbot dopé au machine learning. Et nous pourrions en voir émerger des tas d’autres dans les mois et les années à venir, si l’on se fie à la réponse de l’entreprise.

Fair use ou pillage pur et simple ?

Dans un billet de blog, l’entreprise a admis qu’il y avait « encore du travail à faire pour soutenir les créateurs ». Mais elle a aussi tenu à maintenir sa position, qui consiste à dire que l’utilisation de ce matériel directement accessible par n’importe quelle personne disposant d’un accès Internet public tombe sous le coup du fair use.

Pour rappel, il s’agit d’une doctrine qui permet d’utiliser du contenu couvert par le droit d’auteur à des fins de critique, de commentaire, de recherche, de parodie, ou dans un contexte éducatif. Une position compréhensible, mais dont la légitimité est litigieuse dans ce cas de figure. En effet, pour répondre aux critères du fair use, il faut impérativement citer la source originale pour ne pas empiéter sur la propriété intellectuelle de l’auteur.

Or, ChatGPT n’est pas particulièrement transparent à ce niveau. Le New York Times, par exemple, accuse le chatbot de fournir des « extraits quasiment mot pour mot » de ses articles payants sans les citer une seule fois. OpenAI, de son côté, s’est défendu en affirmant qu’il n’était possible de parvenir à ce résultat qu’en manipulant intentionnellement les requêtes textuelles. Du point de vue des troupes de Sam Altman, il s’agit donc d’un argument de mauvaise foi, et ChatGPT respecte scrupuleusement la législation sur la propriété intellectuelle.

« Impossible » d’exclure le matériel sous copyright

Mais là où le dossier devient plus intéressant, c’est que l’argumentaire d’OpenAI va plus loin que le simple fait de défendre le bien-fondé de sa démarche. Dans la documentation de son procès contre le Times relayée par le Guardian, on trouve en effet un bout de texte que certains ne manqueront pas d’interpréter comme un aveu d’échec cuisant : l’entreprise affirme qu’il est tout simplement impossible de faire progresser l’IA générative si on la prive du contenu couvert par le droit d’auteur.

« Le droit d’auteur couvre virtuellement toutes les formes d’expression humaine — les billets de blog, les photos, les posts sur des forums, les extraits de code, les documents gouvernementaux… », cite le Guardian. Et selon l’entreprise, ces limites pourraient empêcher des programmes à base d’intelligence artificielle d’exploiter tout leur potentiel, privant ainsi l’humanité d’un outil qu’OpenAI juge — évidemment — précieux.

« C’est impossible d’entraîner les meilleurs modèles IA actuels sans utiliser de matériel sous copyright. Limiter l’entraînement aux livres et aux dessins du domaine public qui ont été créés il y a plus d’un siècle pourrait être une expérience intéressante », admet l’entreprise. « Mais cela nous empêcherait de produire des systèmes IA qui répondent aux besoins des citoyens d’aujourd’hui ».

Un argument qui fleure bon le lobbying

Le fait d’invoquer le fair use est tout à fait légitime, même si on peut débattre de la pertinence de cet argument dans ce contexte. En revanche, cette défense-là semble un peu plus bancale dans la mesure où elle esquive le problème de fond. Certains jugeront même qu’elle est entièrement contradictoire avec sa défense basée sur le fair use.

Avec un peu plus de recul, on peut interpréter ce passage comme un appel à assouplir la législation pour laisser plus de marge de manœuvre aux développeurs d’IA génératives. Un positionnement qui ne plaira probablement pas aux avocats du New York Times et des autres adversaires juridiques d’OpenAI.

Mais Sam Altman sait pertinemment que son entreprise a tout intérêt à traiter ces acteurs comme des collaborateurs, et pas comme des adversaires. En ce moment même, OpenAI déploie de gros efforts pour construire des partenariats constructifs avec de grands groupes de presse, afin de pouvoir atteindre ses objectifs sans devoir systématiquement se défendre au tribunal. Nous l’avons encore constaté récemment avec l’accord historique qui permet désormais à l’entreprise d’exploiter les articles du groupe Springer (Die Welt, Wall Street Journal, Politico…) moyennant rémunération.

Pour l’instant, le New York Times continue de faire la sourde oreille par rapport à ces sollicitations. Dans ce contexte, il sera particulièrement intéressant de suivre l’évolution de ce dossier. En effet, il n’est pas exclu que les deux entreprises finissent par résoudre leur litige à l’amiable, comme c’est souvent le cas de l’autre côté de l’Atlantique — et cette issue pourrait bien déboucher sur un accord comparable à celui qui a été établi avec le groupe Springer. Le cas échéant, il pourrait s’agir d’un pas supplémentaire vers l’émergence d’un tout nouveau modèle économique pour la presse dans son ensemble. La suite au prochain épisode.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

1 commentaire
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Mode