IA : GPT-4 arrive la semaine prochaine, et il sera multimodal !

La nouvelle version du modèle de langage qui alimente notamment ChatGPT pourra extraire des informations de supports divers et variés pour produire des textes toujours plus cohérents.

Bing a récemment été mis à jour pour intégrer GPT-3.5, le modèle de génération de langage d’OpenAI qui sert aussi de base à l’incontournable ChatGPT. Et d’après Andreas Braun, CTO de la branche allemande de Microsoft dont les propos ont été relayés par Heise, le moteur de recherche va bientôt monter en puissance de façon significative avec l’intégration de GPT-4. Cela implique que l’arrivée de la toute nouvelle version du modèle révolutionnaire est désormais imminente.

Certains observateurs s’attendent à une augmentation significative du nombre de paramètres. Dans le contexte du machine learning, ce terme désigne des variables internes, pas explicitement définies par les développeurs, dont l’algorithme doit estimer la valeur à partir des données qui lui ont été servies lors de l’entraînement.

Sur le papier, plus le nombre de paramètres est élevé, plus les résultats proposés par le réseau de neurones artificiels seront représentatifs des données qui ont servi à l’entraîner. En pratique, cela signifie que les chatbots sous GPT-4 seront capables de fournir des réponses plus pertinentes que leurs prédécesseurs.

Mais si cette augmentation de puissance brute est une donnée importante, c’est loin d’être l’évolution la plus significative de ce nouveau modèle. Le plus important, c’est que d’après Braun, OpenAI a énormément misé sur la multimodalité avec GPT-4.

Plus puissant et flexible que jamais

La version actuelle de l’algorithme ne sait répondre qu’aux indications textuelles. On ne peut pas lui demander d’exploiter autre chose qu’une simple chaîne de caractères ; elle n’utilise donc qu’une seule modalité. Les modèles dits multimodaux, en revanche, peuvent aussi travailler à partir d’une image, d’une vidéo ou un extrait audio.

C’est une approche qui a le vent en poupe, car elle est bien mieux adaptée à la résolution de problèmes concrets que les grands modèles de langage (ou LLM, pour Large Language Models) traditionnels. Tous les grands noms de l’IA explorent déjà cette approche, et quelques exemples convaincants ont déjà émergé récemment.

On peut par exemple citer la dernière proposition d’Amazon, présentée dans un papier de recherche en février dernier. Dans la même veine, il y a aussi Kosmos-1 un modèle dévoilé au début du mois par Microsoft.

IA : Microsoft frappe un grand coup avec son nouveau modèle Kosmos-1

Tous les deux sont des modèles multimodaux. Contrairement aux LLM traditionnels, ils sont capables d’extraire des informations de plusieurs médias différents. Cela leur permet d’identifier des éléments de contexte supplémentaires. Ils peuvent ensuite les intégrer à un processus de raisonnement global afin de produire des résultats bien plus précis, cohérents et naturels.

Dans le cas de ChatGPT, cela signifie qu’on pourra désormais piocher des informations dans n’importe quel type de média. Il ne sera plus limité au texte. Il sera armé pour “comprendre” le contenu de vidéos, d’images ou de discours. Ces ressources lui permettront d’affiner ses réponses tout en les rendant plus naturelles.

OpenAI va-t-il miser sur le Chain of Thought ?

Pour l’instant, OpenAI (l’un de ses principaux actionnaires) n’a pas livré de détails techniques sur son nouvel algorithme. Mais en prenant un peu de recul, on peut déjà émettre une première suggestion. Il est probable qu’il utilise le concept de Chain of Thought (CoT), l’autre grand point commun des travaux d’Amazon et Microsoft ci-dessus.

En effet, pour poser les bases de leurs modèles multimodaux respectifs, les deux géants du numérique ont opté pour une approche assez différente des LLM classiques. Ces derniers utilisent ce que les spécialistes appellent le « standard prompting ». Très vulgairement, cela signifie qu’ils tentent d’analyser la question posée dans sa globalité, en une seule étape.

Les modèles CoT, en revanche, cherchent à imiter la façon de raisonner des humains. Ils déconstruisent l’énoncé du problème pour procéder étape par étape en intégrant plusieurs sources de données. Et ce concept commence déjà à produire des résultats assez spectaculaires alors que son potentiel vient à peine d’émerger.

Il sera donc intéressant de voir si OpenAI va également miser là dessus. Mais quoi qu’il en soit, Chain of Thought ou pas, GPT-4 devrait représenter une nouvelle étape importante dans le développement de ces modèles de langage. Nous vous donnons donc rendez-vous la semaine prochaine pour observer les progrès de cet algorithme qui n’a pas fini de faire parler de lui.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.