C’est l’histoire improbable d’un ordinateur vieux de 25 ans qui ressuscite à l’ère de l’intelligence artificielle. Un groupe de chercheurs a réussi à faire tourner un modèle de langage inspiré de LLaMA 2 sur un PC équipé d’un processeur Pentium II à 350 MHz et de 128 Mo de RAM. Le système d’exploitation ? Windows 98, évidemment.
Retour aux fondamentaux
Pour relever ce pari, l’équipe s’est appuyée sur une architecture appelée BitNet. Contrairement aux modèles classiques qui nécessitent plusieurs dizaines de gigaoctets de mémoire et une carte graphique dernier cri, BitNet repose sur des poids ternaires (0, -1, 1), ce qui réduit drastiquement la taille du modèle. Résultat : un modèle de 7 milliards de paramètres tient dans 1,38 Go de stockage.
Le modèle utilisé ici, baptisé stories260K, n’a évidemment pas la puissance de ChatGPT, mais il est capable de générer du texte à une cadence d’environ 39 tokens par seconde. Un rythme modeste mais suffisant pour démontrer que l’IA peut s’adapter à du matériel grand public ancien.
Ce projet rétro-tech a nécessité bien plus qu’un simple téléchargement. Pour faire fonctionner le tout, l’équipe a dû composer avec les limitations d’un PC d’époque. Impossible d’utiliser un clavier USB ou une clé USB moderne : retour aux périphériques PS/2 et au bon vieux FTP pour transférer les fichiers !
Compiler le code a également relevé de l’exploration archéologique. Exit les compilateurs modernes : c’est Borland C++ 5.02, sorti en 1998, qui a été choisi pour adapter le fichier llama2.c, un code C minimaliste. Quelques ajustements ont été nécessaires, comme le remplacement de types modernes ou la gestion manuelle des horloges système.
L’équipe résume son exploit avec humour : « Si ça tourne sur un PC de 1998, alors ça peut tourner n’importe où. »
Au-delà de l’exploit technique, le projet porte une ambition plus large : rendre l’intelligence artificielle plus accessible. Aujourd’hui, la majorité des modèles d’IA tournent sur des serveurs distants dans des centres de données. Une solution coûteuse, énergivore, et dépendante des grandes plateformes cloud.
EXO propose une alternative : faire tourner des modèles localement, directement sur le matériel des utilisateurs, même modeste. BitNet s’inscrit dans cette logique avec son approche ultra-compacte. EXO affirme que, grâce à cette méthode, un modèle de 100 milliards de paramètres pourrait théoriquement fonctionner sur un seul CPU, à une vitesse proche de la lecture humaine (5 à 7 tokens/seconde).
Cette approche ouvre des perspectives inattendues : intégrer l’IA dans des téléphones anciens, des ordinateurs oubliés ou même des appareils embarqués sans connexion permanente au cloud.
La suite ? EXO promet des outils open source pour ceux qui voudraient tenter l’expérience sur d’autres machines anciennes, et travaille à l’intégration de modèles ternaires dans des domaines spécialisés, comme la modélisation des protéines.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.