L’IA agentique a déjà sa grande barrière : le prix des jetons

États-Unis et Chine : La compétition éthique qui définira l'avenir de l'IA

L’intelligence artificielle promettait abondance, productivité et un accès massif à des capacités jusque-là réservées à de grands laboratoires. Pendant un temps, cette narration a semblé fonctionner : outils d’écriture, assistants de programmation, copilotes d’entreprise et premiers agents autonomes ont été introduits sur le marché à des prix abordables, avec des essais gratuits ou des abonnements proches du modèle SaaS traditionnel.

Cette phase touche à sa fin. L’IA générative ne se comporte pas comme une application classique. Chaque question, chaque document lu, chaque raisonnement intermédiaire, chaque longue réponse et chaque action d’un agent consomme des tokens. Et lorsque ces agents passent du stade de démonstration à des flux de travail permanents, la facture change d’échelle.

Le problème ne réside pas uniquement dans le coût des modèles. Il est que l’IA agentique consomme différemment. Un assistant répond à une requête, mais un agent planifie, lit, écrit, vérifie, retente sa chance, utilise des outils externes et peut travailler pendant des minutes ou des heures sur une tâche. À chaque étape, s’accumulent tokens d’entrée, de sortie, de contexte, de cache et, dans certains cas, de raisonnement interne. L’économie ne se mesure plus en nombre d’utilisateurs, mais en volume réel d’inférences.

La fin du tarif forfaitaire avantageux

Le signe le plus évident de ce changement provient des plateformes elles-mêmes. GitHub a annoncé que tous les plans de Copilot passeront, à partir du 1er juin 2026, à un système de facturation basé sur l’usage via les crédits GitHub AI. La société maintiendra des plans d’abonnement, mais la consommation sera calculée selon les tokens d’entrée, de sortie et de cache, selon le modèle utilisé. Ce mouvement est significatif car Copilot n’est plus seulement une aide dans l’éditeur, mais une plateforme avec des flux de plus en plus agentiques et des sessions longues sur des dépôts complets.

Microsoft a également laissé entrevoir la direction du marché. Selon The Verge, la société prévoit de retirer la majorité des licences internes de Claude Code dans certains de ses équipes et de migrer de nombreux développeurs vers GitHub Copilot CLI. Il ne faut pas interpréter cela comme un rejet d’Anthropic, mais cela montre que même l’une des plus grandes entreprises technologiques du monde rationalise l’accès à ses outils IA lorsque la consommation devient significative.

Uber constitue un autre signal. Forbes a rapporté que la société aurait épuisé son budget IA pour 2026 en seulement quatre mois, en raison de l’utilisation intensive de Claude Code. Bien que ces chiffres soient issus de sources internes et doivent être considérés avec prudence, ils correspondent à ce que constatent déjà de nombreuses entreprises : les budgets pour des pilotes sont insuffisants lorsque les équipes adoptent l’IA quotidiennement et que les agents s’attaquent à des tâches concrètes.

La paradoxalité est claire : plus l’IA devient utile, plus on l’utilise, et plus il devient difficile de justifier une tarification illimitée à tarif forfaitaire. La richesse ne disparaît pas, mais elle commence à être soumise à des conditions.

Tableau comparatif : prix pour 1 million de tokens

Les prix suivants sont indicatifs et peuvent varier selon la date de consultation, la région, le mode d’utilisation, la taille du contexte, l’usage de cache, le traitement par lots, la priorité, les remises pour entreprise ou les changements commerciaux du fournisseur. Tous les modèles n’ont pas la même qualité, vitesse, conformité, support ou disponibilité.

Région Entreprise Modèle de référence Entrée pour 1 M tokens Sortie pour 1 M tokens Lecture pour usage agentique
États-Unis OpenAI GPT-5.5 5,00 $ 30,00 $ Très coûteux pour des tâches à forte génération de texte
États-Unis Anthropic Claude Opus 4.7 5,00 $ 25,00 $ Coût élevé pour la sortie, mais économies possibles avec cache ou batch
États-Unis Google Gemini 3.5 Flash High 1,50 $ 9,00 $ Plus compétitif, mais le mode de raisonnement augmente la consommation
États-Unis xAI Grok 4 1,25 $ 2,50 $ Prix agressif face à d’autres modèles américains
Chine DeepSeek DeepSeek V4 Pro 0,435 $ 0,87 $ Très faible coût pour flux massifs et agents
Chine Alibaba/Qwen Qwen-Max 2,50 $ 7,50 $ Coût intermédiaire, avec écosystème cloud propre
Chine Z.ai/Zhipu GLM-5.1 1,40 $ 4,40 $ Alternative compétitive pour le raisonnement et le code
Chine Baidu ERNIE 4.5 ≈0,59 $ ≈2,35 $ Prix approximés en yuanes convertis en dollars
Chine MiniMax MiniMax M2.7 0,30 $ 1,20 $ Très attractif pour architectures multi-agent à haut volume

La différence entre modèles américains et chinois est significative. Lors de flux où un agent génère beaucoup de texte, révise du code, produit de la documentation ou effectue plusieurs tours de raisonnement, le coût de la sortie devient prédominant par rapport à l’entrée. C’est là que la différence entre 25 ou 30 dollars par million de tokens et moins de 2 dollars peut transformer la viabilité économique d’un projet.

Mais le prix ne fait pas tout. Opter pour un modèle chinois moins cher soulève des questions de latence, de résidence des données, de conformité réglementaire, de support enterprise, d’intégration, de sécurité et de dépendance géopolitique. Pour une startup ou un laboratoire technique, le coût peut être le facteur déterminant. Pour une entreprise réglementée, ce n’est pas toujours le cas.

La nouvelle inégalité de l’IA sera économique

Les discussions sur l’IA portent souvent sur ses capacités : quel modèle raisonne le mieux, lequel programme plus efficacement, lequel résout plus d’études de référence ou qui a le plus de contexte. Mais la véritable adoption en entreprise dépendra de moins en moins d’une question brillante : combien coûte son utilisation quotidienne.

Un exemple extrême permet de l’illustrer. Tom’s Hardware rapporte que Peter Steinberger, créateur d’OpenClaw et employé d’OpenAI, aurait dépensé plus de 1,3 million de dollars en tokens OpenAI en 30 jours, avec 603 milliards de tokens et 7,6 millions de requêtes générées par quelque 100 instances de Codex. Bien que cet exemple ne soit pas représentatif d’une entreprise moyenne, il montre ce qui se produit lorsque les limites sont levées et que des agents fonctionnent en continu.

Salesforce donne une autre perspective. Marc Benioff a indiqué que la société pourrait dépenser environ 300 millions de dollars en tokens d’Anthropic cette année, principalement pour des agents de programmation et d’automatisation. Ce chiffre n’indique pas une dépense irrationnelle ; elle peut être justifiée si le retour sur productivité est supérieur. Mais il confirme que l’IA agentique n’est plus une petite dépense de logiciel : elle devient une composante stratégique de l’infrastructure.

Pour les grandes entreprises technologiques, banques, pharmaceutiques ou cabinets de conseil mondiaux, ces coûts peuvent être assumés si le bénéfice est clair. Pour les universités, médias de petite taille, développeurs indépendants, PME ou équipes de recherche avec des budgets limités, la situation est différente. Si l’accès à des modèles avancés et agents persistants est conditionné par des factures mensuelles à six chiffres, l’IA n’atténuera pas toutes les disparités. Certaines les accentueront.

La promesse d’une abondance technologique doit faire face à une réalité physique : GPU, centres de données, énergie, mémoire, réseaux et talents spécialisés. L’intelligence peut sembler logiciel, mais elle s’appuie sur une infrastructure très coûteuse.

La réponse ne sera pas simplement d’utiliser toujours le modèle le moins cher

Il ne suffit pas de remplacer un modèle américain par un modèle chinois plus économique. La prochaine étape pour l’IA en entreprise nécessitera une architecture réfléchie. Les organisations devront décider quelles tâches justifient des modèles de pointe, lesquelles peuvent être traitées avec des modèles plus petits, quelles parties peuvent s’exécuter localement, quand utiliser du cache, comment limiter des agents persistants et comment mesurer le coût par résultat métier.

Cela ouvre la voie à une discipline de plus en plus cruciale : la FinOps pour l’IA. Tout comme le cloud a obligé à maîtriser machines, stockage et trafic, l’IA impose de contrôler tokens, contexte, cache, appels aux outils et consommation par équipe. Sans cette visibilité, l’adoption peut sembler réussie jusqu’à ce que la facture arrive.

L’intelligence artificielle n’est pas en train d’échouer parce qu’elle devient coûteuse. Elle entre dans une phase mature. Les subventions initiales, les essais généreux et les tarifs forfaitaires ont créé des habitudes et accéléré le marché. La partie moins confortable commence maintenant : démontrer quelles tâches apportent une valeur suffisante pour couvrir le coût réel de leur exécution.

L’ère des agents ne se décidera pas uniquement par la sophistication du modèle mais aussi par la capacité à en assurer la pérennité financière.

Questions fréquentes

Pourquoi les agents IA sont-ils plus chers qu’un chatbot ?
Parce qu’ils opèrent en plusieurs étapes : lecture du contexte, planification, consultation d’outils, exécution d’actions, revue des résultats et réitération. Chaque étape consomme des tokens.

Les prix par token peuvent-ils varier ?
Oui. Ils peuvent fluctuer selon la date, le pays, le fournisseur, le modèle, le contexte, l’usage de cache, le traitement par lots, la priorité ou les accords enterprise.

Les modèles chinois sont-ils toujours la meilleure option pour le prix ?
Pas nécessairement. Leur coût peut être bien inférieur, mais la décision doit aussi prendre en compte la confidentialité, la conformité, le support, la latence, la disponibilité et la qualité des données.

Que doivent faire les entreprises pour maîtriser leurs dépenses en IA ?
Mesurer la consommation par cas d’usage, établir des limites, utiliser différents modèles selon la tâche, mettre en cache les réponses, éviter les agents sans contrôle et calculer le coût par résultat, pas seulement par token.

le dernier