Si vous avez pris l’habitude d’utiliser l’IA dans votre quotidien, vous savez que toutes les économies sont bonnes à prendre. Changer de modèle pour un algorithme moins gourmand, éviter les conversations à rallonge qui plombent votre consommation, compresser vos prompts… Toutes ces astuces vous permettent de gagner quelques euros sur la facture finale. Mais une chose peut vraiment vous rapporter gros.
Le prompt caching, c’est quoi ?
Le prompt caching vous permet d’obtenir une réduction de 90% sur les tokens d’entrée mis en cache. Et pourtant, la fonctionnalité proposée par l’API d’Anthropic reste largement sous-utilisée. Concrètement, chaque fois qu’un message est envoyé à Claude, le modèle ne traite pas juste la dernière question de manière isolée. Le prompt caching identifie les tokens qui restent identiques entre plusieurs requêtes : si une requête commence par la même séquence de tokens qu’une requête précédente, le modèle peut réutiliser la représentation déjà calculée plutôt que de tout recalculer à chaque fois.
Plus concrètement, le gros défaut de Claude réside dans son absence de mémoire. A chaque message, l’IA relit tout depuis le début : contexte, prompt de base, historique de la conversation… C’est lent, redondant, et rapidement coûteux. Le prompt caching permet de rappeler à l’IA qu’elle a déjà lu le début de votre conversation, en gardant l’historique des messages en mémoire pendant 5 minutes. Si une nouvelle question est envoyée dans ce délai, Claude ne relit pas tout, et part uniquement de la nouvelle requête.
90% d’économie sur les tokens
Les tokens relus depuis le cache coûtent environ 10 fois moins cher que les tokens classiques. Sur une longue conversation avec un prompt volumineux, cela peut représenter 70 à 90% d’économies. Le prompt caching est accessible à tous, simple à mettre en place, et surtout, il permet de gagner de l’argent et du temps sur les tâches répétitives. La bonne nouvelle, c’est que vous n’avez presque rien à faire : les discussions directes avec Claude Chat utilisent le prompt caching par défaut. Pour les automatisations via Claude Code ou Cowork, qui utilisent des API, il suffit d’ajouter une ligne sur l’appel API.
-
cache_control={"type": "ephemeral"}
Il suffit ensuite de relancer la requête, et Claude s’occupe du reste. Pour vérifier que tout est fonctionnel, tapez :
-
print(response.usage)
Si le cache_read_input_tokens est supérieur à 0, vous avez économisé des tokens, et donc de l’argent. C’est aussi simple que ça.
🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.