Avec Gemini 3.1 Flash-Lite, Google dégaine l'IA la moins chère du marché

Avec Gemini 3.1 Flash-Lite, Google dégaine l’IA la moins chère du marché

Google vient de lancer Gemini 3.1 Flash-Lite, un modèle d’IA taillé pour la vitesse et les petits budgets. Sur le papier, il écrase la concurrence en termes de rapport qualité-prix. Mais est-ce suffisant pour rebattre les cartes ?

Dans la guerre des modèles d’intelligence artificielle, les annonces se suivent et se ressemblent. Google, fidèle à sa stratégie d’occupation du terrain, vient d’ajouter une nouvelle pièce à son arsenal, avec Gemini 3.1 Flash-Lite, disponible dès maintenant en accès anticipé. Cette fois, c’est clairement le portefeuille des utilisateurs qui est dans le viseur.

Moins cher, plus rapide…

Le positionnement tarifaire ne laisse pas beaucoup de place au doute, avec un prix affiché quatre fois moins cher que la concurrence. Comptez 0,25 dollar par million de tokens en entrée et 1,50 dollar en sortie. Pour situer, GPT-5 mini d’OpenAI facture le même prix en entrée mais grimpe à 2 dollars en sortie. Google frappe fort sur les prix, sans rogner sur la pertinence, et surtout sur la vitesse. Gemini 3.1 Flash-Lite crache 363 tokens par seconde en sortie, c’est 2,5 fois plus rapide que Gemini 2.5 Flash sur le temps de réponse initial, et 45 % plus rapide en débit pur. En face, GPT-5 mini plafonne à 71 tokens par seconde. Claude 4.5 Haiku s’en sort un peu mieux avec 108 tokens par seconde. Grok 4.1 Fast, avec son mode raisonnement, monte à 145 tokens par seconde. On est loin du compte.

… et beaucoup plus efficace

Côté performances brutes, le tableau est tout aussi flatteur. Gemini 3.1 Flash-Lite affiche 86,9% sur GPQA Diamond, 76,8% sur MMMU Pro pour la compréhension multimodale, ou encore 88,9% sur le MMLU multilingue. Google se positionne sur un créneau grand public, et pourrait bien sonner le début de l’IA pour toutes et tous, en proposant un premier modèle efficace, rapide, et vraiment abordable.

Au-delà des chiffres, Google introduit une fonctionnalité qui pourrait faire la différence au quotidien pour les développeurs : des niveaux de réflexion configurables. Concrètement, il est possible d’ajuster la profondeur de raisonnement du modèle en fonction de la tâche, et d’alléger la facture finale. Toutes les tâches ne nécessitent pas le même niveau de puissance, et Google semble avoir décidé de faire de ce mantra l’un de ses arguments de vente. Inutile de sortir l’artillerie lourde pour corriger l’orthographe d’un texte. En revanche, quand il s’agit de faire raisonner un agent autonome sur plusieurs étapes, mieux vaut disposer d’un modèle capable de prendre son temps.

Google précise que plusieurs entreprises utilisent déjà Gemini 3.1 Flash-Lite en production dans le cadre de l’accès anticipé. Ces premières intégrations confirmeraient la capacité du modèle à traiter des entrées complexes tout en respectant les consignes, même à cette vitesse. Reste la question qui fâche : combien de temps Google pourra-t-il maintenir cette agressivité tarifaire sans rogner sur la qualité ? Pour l’instant, Google semble avoir trouvé un équilibre convaincant entre vitesse, qualité et coût. Mais dans un secteur où les cartes sont redistribuées tous les trimestres, rien ne garantit que cet avantage tiendra longtemps.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.