Facebook a un gros problème avec Harry Potter

Une nouvelle étude soulève le plus gros problème de l’IA. Llama 3.1 connaît Harry Potter à l’école des sorciers sur le bout des doigts.

L’intelligence artificielle inquiète l’industrie culturelle. D’abord pour le risque qu’elle représente pour de nombreux emplois, mais aussi et surtout concernant la manière dont les outils du genre sont entraînés. Si nombreuses sont les entreprises à avancer que leurs intelligences artificielles sont formées à partir de textes et d’informations non protégées par le droit d’auteur, force est de constater que de plusieurs scandales entourent les géants du secteur.

Des romanciers comme George R.R Martin ont notamment accusé OpenAI d’avoir “copié les oeuvres sans autorisation ni contrepartie”. En février dernier, lors de cadre d’un procès pour violation du copyright, Meta était accusée d’avoir utilisé téléchargé plus de 81 To de livres via des bibliothèques pirates. Une nouvelle étude ajoute à la controverse.

Un article publié le mois dernier par des chercheurs juristes et informaticiens des universités de Stanford, Cornell et de l’Université de Virginie-Occidentale prouve que l’IA conversationnelle de Facebook, Llama 3.1, connaît les premières aventures d’Harry Potter sur le bout des doigts. L’étude estime que l’agent conversationnelle de Facebook a mémorisé 42% du premier roman de la saga.

Le hit du rayon jeunesse n’est d’ailleurs pas le seul concerné puisque des ouvrages comme Le Hobbit de J.R.R Tolkien ou 1984 de George Orwell sont aussi cités. Pour obtenir de tels résultats, les chercheurs ont demandé à plusieurs intelligences artificielles de compléter des citations du roman. Llama 3.1 peut citer une grande partie d’Harry Potter à l’école des sorciers sans sourciller.

Mark Lemley, professeur de droit à l’université de Stanford et ancien membre de l’équipe juridique de Meta, explique à Understanging AI :

“Nous nous attendions à un faible taux de reproductibilité, de l’ordre de 1 ou 2%. La première chose qui m’a surpris, c’est l’ampleur des variations”.

Qui est en cause ?

Meta a-t-elle abreuvée son modèle du roman de J.K Rowling ou les utilisateurs sont-ils en cause ? C’est la question soulevée par l’étude. En effet, le fait que les romans les plus populaires soient ceux qui semblent avoir été le plus mémorisés par l’IA interroge sur les sources de cette dernière. Pour Lemley, l’idée que Llama 3 ait mémorisé Harry Potter via les citations partagées sur les forums et internet paraît assez improbable. Le juriste explique :

“S’il s’agissait de citations, on s’attend à ce qu’elles se concentrent sur quelques éléments populaires que tout le monde cite ou dont tout le monde parle”.

La moitié du livre est connu de l’IA de Facebook et il apparaît que que celle-ci a eu accès à l’intégralité de l’ouvrage à un moment ou à un autre. “Il existe des preuves claires que Llama 3.1 a mémorisé l’intégralité ou presque d’Harry Potter à l’école des sorciers” avance l’étude.

L’épineuse question du “fair use”

Cette nouvelle étude relance le débat sur la notion de “fair use” derrière laquelle Meta et consorts se réfugient. En effet, aux États-Unis, le droit d’auteur peut-être limité grâce à cet ensemble de lois qui évalue les bénéfices de faire une exception au regard des bénéfices pour les détenteurs des droits autant que pour l’intérêt public. Cela comprend notamment la reproduction ou la copie à des fins telles que la critique, le commentaire ou l’information journalistique et l’enseignement.

Se pose alors la question de la manière dont les entreprises d’IA doivent être considérées, comme enfreignant le droit d’auteur ou comme des outils d’utilité publique ?

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.