Google vient de présenter Gemini 2, la dernière version de son modèle IA propriétaire. L’entreprise insiste lourdement sur le fait que cette nouvelle itération marque le début de ce qu’elle appelle “l’ère agentive”, où des systèmes de ce genre seront de plus en plus à même d’accomplir de nombreuses tâches sans qu’un humain n’ait besoin d’intervenir.
Pour rappel, Gemini premier du nom a été lancé il y a un peu plus d’un an, avec l’objectif de positionner la firme de Mountain View parmi les leaders de cette industrie à fort potentiel. Après des débuts timides marqués par des bourdes mémorables, cet assistant IA s’est progressivement imposé comme un des plus performants du marché, notamment grâce à sa multimodalité avancée – sa capacité à travailler avec à peu près tous les types de médias, au-delà des simples contenus textuels.
Google affirme que la version 2 est largement plus performante que la précédente, et ce sur toute la ligne. La firme promet “des performances accrues pour des temps de réponse toujours aussi rapides”, aussi bien pour le modèle de base que pour la version Flash – une version plus légère et donc légèrement moins puissante, mais considérablement plus rapide.
Comme OpenAI avec son GPT-4o, Google met aussi en avant des “capacités avancées de raisonnement”, notamment grâce à une fenêtre de contexte encore plus étendue. En pratique, ce terme désigne la quantité d’informations dont le modèle peut tenir compte pour générer des réponses lors d’une conversation ou pour accomplir n’importe quelle autre tâche. Cela signifie que le nouveau modèle devrait être nettement plus performant lorsqu’il s’agit d’identifier des relations logiques entre différentes informations, et donc de proposer une réponse complète, cohérente et nuancée.
L’ère de l’IA agentique
Mais Gemini 2.0 ne se contente pas d’être plus performant sur les tâches que son prédécesseur était déjà capable d’accomplir. Il arrive aussi avec de nouvelles fonctionnalités comme la génération native de son et d’images, et Google compte bien mettre cette multimodalité au service de ce que l’industrie appelle des “agents” d’intelligence artificielle – des systèmes IA capables d’agir de façon proactive pour faciliter la vie de l’utilisateur en anticipant ses requêtes et ses besoins.
Grâce à ces nouvelles capacités, Gemini va être intégré de plus en plus profondément à l’écosystème logiciel de Google. Le modèle jouera un rôle de plus en plus important dans le célèbre moteur de recherche ainsi que sur la plateforme YouTube et au sein du système d’exploitation Android.
Pour nous donner un avant-goût de cette nouvelle ère “agentique”, Google a présenté les nouvelles fonctionnalités de son Projet Astra, un embryon d’ “agent IA universel” qui peut analyser le flux vidéo d’un smartphone en temps réel, tenir des conversations dans des tas de langues différentes, ou encore interpréter des données issues de Google Maps.
En parallèle, Google a aussi révélé plusieurs nouveaux outils qui adhèrent tous à cette philosophie agentique. On peut citer Project Mariner, un prototype d’extension pour le navigateur Chrome qui assiste l’utilisateur lors de sa navigation en analysant les informations à l’écran, comme le fait déjà le Copilot de Microsoft.
Dans une vidéo, l’entreprise a aussi révélé une collaboration avec l’éditeur Supercell (Clash of Clans, Clash Royale…) à travers une démo où un de ces “agents” s’est montré capable de comprendre les séquences de gameplay affichées à l’écran pour offrir des suggestions en temps réel.
Il sera intéressant de voir si le public va adhérer à ce nouveau paradigme, dont l’objectif est clairement de placer ces systèmes IA au centre de notre vie numérique.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.