IA agentique : le prix des tokens comme frein à l’adoption

Coût des tokens IA agentique et infrastructure LLM

L’IA générative promettait abondance, productivité et un accès massif à des capacités jusque-là réservées aux grands laboratoires. Pendant un temps, la narration a tenu : outils d’écriture, assistants de programmation, copilotes d’entreprise et premiers agents autonomes sont arrivés sur le marché à des prix abordables, avec des essais gratuits ou des abonnements proches du modèle SaaS classique.

Cette phase touche à sa fin. L’IA générative n’a pas le comportement d’une application ordinaire. Chaque question, chaque document lu, chaque raisonnement intermédiaire, chaque action d’un agent consomme des tokens. Quand ces agents passent du stade de démonstration à des flux de travail permanents, la facture change d’échelle.

Le problème n’est pas seulement le coût des modèles : c’est la façon dont l’IA agentique consomme. Un assistant répond à une requête. Un agent planifie, lit, écrit, vérifie, retente, utilise des outils externes et peut travailler des minutes ou des heures sur une tâche. À chaque étape s’accumulent tokens d’entrée, de sortie, de contexte, de cache et, dans certains cas, de raisonnement interne. L’économie ne se mesure plus en nombre d’utilisateurs, mais en volume réel d’inférences.

La fin du forfait illimité

Le signal le plus net vient des plateformes elles-mêmes. GitHub a annoncé que tous les plans Copilot passeront, à partir du 1er juin 2026, à une facturation basée sur l’usage via des crédits GitHub AI. La société maintiendra des abonnements, mais la consommation sera calculée par tokens d’entrée, de sortie et de cache selon le modèle utilisé. Ce mouvement est significatif parce que Copilot n’est plus seulement un assistant dans l’éditeur : c’est une plateforme avec des sessions de plus en plus agentiques et longues sur des dépôts complets.

Microsoft a lui aussi donné le ton. Selon The Verge, la société prévoit de retirer la majorité des licences internes de Claude Code dans certaines équipes et d’y substituer GitHub Copilot CLI. Ce n’est pas un rejet d’Anthropic, mais cela confirme que même l’une des plus grandes sociétés tech du monde rationalise l’accès à ses outils IA quand la consommation devient significative.

Uber donne un autre signal. Forbes rapporte que la société aurait épuisé son budget IA 2026 en quatre mois, en raison d’une utilisation intensive de Claude Code. Ces chiffres sont issus de sources internes et doivent être interprétés avec prudence, mais ils correspondent à ce que constatent beaucoup d’entreprises : les budgets prévus pour des pilotes sont trop étroits quand les équipes adoptent l’IA quotidiennement. Plus l’IA devient utile, plus on l’utilise, et plus il est difficile de maintenir une tarification forfaitaire.

Prix par million de tokens : les grands écarts

Les prix suivants sont indicatifs et peuvent varier selon la date, la région, la taille du contexte, l’usage du cache, le traitement par lots et les accords entreprise. Tous les modèles n’ont pas la même qualité, vitesse, conformité ou support.

PaysEntrepriseModèleEntrée (1M tokens)Sortie (1M tokens)Impact usage agentique
États-UnisOpenAIGPT-5.55,00 $30,00 $Très coûteux pour les tâches à forte génération
États-UnisAnthropicClaude Opus 4.75,00 $25,00 $Élevé en sortie, économies possibles avec cache/batch
États-UnisGoogleGemini 3.5 Flash High1,50 $9,00 $Plus compétitif, mais le mode raisonnement multiplie la consommation
États-UnisxAIGrok 41,25 $2,50 $Prix agressif face aux autres modèles américains
ChineDeepSeekDeepSeek V4 Pro0,435 $0,87 $Très faible coût pour flux massifs et agents
ChineAlibaba/QwenQwen-Max2,50 $7,50 $Coût intermédiaire avec écosystème cloud intégré
ChineZhipuGLM-5.11,40 $4,40 $Alternative compétitive pour raisonnement et code
ChineBaiduERNIE 4.5≈0,59 $≈2,35 $Prix approximés (yuans convertis)
ChineMiniMaxMiniMax M2.70,30 $1,20 $Très attractif pour architectures multi-agent à haut volume

La différence entre modèles américains et chinois est frappante. Dans les flux où un agent génère du texte en volume, révise du code ou enchaîne plusieurs tours de raisonnement, le coût de la sortie devient dominant. C’est là que l’écart entre 25-30 dollars par million de tokens et moins de 2 dollars peut rendre viable ou non un projet entier. Ce phénomène s’articule directement avec le débat sur le coût réel de l’infrastructure IA : le prix du token n’est que la couche logicielle du problème, au-dessus d’un GPU, d’une énergie et d’un centre de données qui ne sont pas gratuits.

Choisir un modèle chinois moins cher soulève ses propres questions : latence, résidence des données, conformité réglementaire, support enterprise, sécurité et dépendance géopolitique. Pour une startup ou un laboratoire technique, le coût peut être le facteur déterminant. Pour une entreprise réglementée, non.

La nouvelle inégalité de l’IA sera économique

Les discussions sur l’IA portent souvent sur les capacités : quel modèle raisonne mieux, lequel programme plus efficacement, lequel a le plus de contexte. Mais l’adoption en entreprise dépendra de plus en plus d’une seule question : combien ça coûte à utiliser tous les jours ?

Deux cas concrets illustrent les extrêmes. Tom’s Hardware rapporte que Peter Steinberger, créateur d’OpenClaw, aurait dépensé plus de 1,3 million de dollars en tokens OpenAI sur 30 jours, avec 603 milliards de tokens générés par environ 100 instances de Codex en parallèle. Ce n’est pas représentatif d’une entreprise moyenne, mais cela montre ce qui arrive quand des agents fonctionnent sans limites.

Salesforce donne une autre perspective. Marc Benioff a indiqué que la société pourrait dépenser environ 300 millions de dollars en tokens Anthropic cette année, principalement pour des agents de programmation et d’automatisation. Ce chiffre peut se justifier si le retour sur productivité le couvre. Mais il confirme que l’IA agentique n’est plus une petite ligne logicielle : c’est une composante d’infrastructure à part entière.

Pour les grandes entreprises tech, les banques ou les pharmaceutiques, ces coûts sont absorbables si le bénéfice est clair. Pour les universités, les médias indépendants, les développeurs indépendants ou les PME avec des budgets limités, la situation est différente. Si l’accès aux agents persistants implique des factures mensuelles à six chiffres, l’IA n’atténuera pas toutes les disparités. Certaines les creuseront. C’est la même logique que celle qui structure la stratégie industrielle chinoise face à l’IA : les avantages de l’automatisation ne se distribuent pas uniformément.

La réponse ne passe pas par le modèle le moins cher

Remplacer systématiquement un modèle américain par un modèle chinois moins cher n’est pas une stratégie suffisante. Ce que les organisations devront construire, c’est une architecture réfléchie : quelles tâches justifient des modèles de pointe, lesquelles peuvent tourner sur des modèles plus petits ou en local, quand utiliser du cache, comment limiter les agents persistants et comment mesurer le coût par résultat métier.

C’est l’ouverture d’une discipline qui prend de l’importance : la FinOps pour l’IA. Tout comme le cloud a forcé à maîtriser machines, stockage et trafic, l’IA impose de contrôler tokens, contexte, cache, appels aux outils et consommation par équipe. Sans cette visibilité, l’adoption peut sembler un succès jusqu’à ce que la facture arrive.

L’IA n’est pas en échec parce qu’elle coûte cher. Elle entre dans une phase mature. Les subventions initiales, les essais généreux et les forfaits illimités ont accéléré le marché. La partie moins confortable commence maintenant : démontrer quelles tâches apportent assez de valeur pour couvrir le coût réel de leur exécution. L’ère des agents ne se décidera pas seulement par la sophistication du modèle, mais par la capacité à en assurer la pérennité financière.

Questions fréquentes

Pourquoi les agents IA sont-ils plus chers qu’un chatbot ?

Parce qu’ils fonctionnent en plusieurs étapes : lecture du contexte, planification, consultation d’outils, exécution d’actions, vérification et réitération. Chaque étape consomme des tokens, et les sessions peuvent durer des minutes ou des heures sur une même tâche.

Les prix par token peuvent-ils varier ?

Oui. Ils fluctuent selon la date, le pays, le fournisseur, le modèle, la taille du contexte, l’usage du cache, le traitement par lots, la priorité et les accords enterprise. Les tableaux comparatifs publiés sont indicatifs et se périment rapidement.

Les modèles chinois sont-ils toujours la meilleure option coût ?

Leur coût peut être nettement inférieur, mais la décision doit aussi intégrer la confidentialité, la conformité réglementaire, le support, la latence, la disponibilité et les contraintes géopolitiques. Pour une entreprise réglementée, le prix seul ne suffit pas.

Comment maîtriser les dépenses en IA agentique ?

Mesurer la consommation par cas d’usage, fixer des limites, utiliser des modèles adaptés à chaque tâche, mettre en cache les réponses répétitives, éviter les agents sans contrôle et calculer le coût par résultat métier, pas seulement par token consommé.

le dernier