La première étape de l’intelligence artificielle générative en entreprise s’est vendue comme une promesse d’amélioration de la productivité quasi inévitable : plus de code, plus de documents, plus d’automatisation et moins de temps perdu dans des tâches répétitives. La deuxième étape est beaucoup moins « épique » : vérification des factures, définition de limites de dépenses et explication au département financier pourquoi un outil, qui semblait n’être qu’une licence SaaS supplémentaire, se comporte en réalité comme une infrastructure à consommation variable.
Le problème ne réside pas dans le fait que l’IA ne fonctionne pas — ce serait une lecture trop simpliste. Le vrai défi, c’est qu’une fois qu’elle fonctionne à grande échelle, son utilisation dépasse largement les prévisions. Et quand c’est le cas, cela met en lumière une vérité que le marché a tenté de repousser pendant deux ans : exécuter des modèles avancés à grande échelle coûte extrêmement cher. Payer une simple licence par utilisateur ne suffit plus si chaque session consomme beaucoup de ressources — longues conversations, agents explorant complètement des référentiels, contextes volumineux, réponses élaborées, et plusieurs modèles en chaîne.
La tarification à prix fixe était une étape d’acquisition de marché
Au départ, de nombreux outils d’IA ont été financés selon une logique semblable à celle d’autres marchés technologiques : croissance rapide, acquisition d’utilisateurs, formation d’habitudes et supposition que les coûts diminueraient avec le temps. Cette stratégie est pertinente lorsque le coût marginal tend vers zéro. En IA générative, ce coût marginal ne disparaît pas : chaque interaction consomme de l’inférence, de l’énergie, de la mémoire, du réseau et des ressources GPU. Chaque agent fonctionnant en arrière-plan transforme cette promesse d’un logiciel peu coûteux en une charge opérationnelle concrète.
GitHub a mis un nom sur ce changement. À partir du 1er juin 2026, Copilot commencera à consommer des crédits GitHub AI dans tous ses plans. La société maintient ses tarifs de base, mais l’utilisation sera désormais calculée en tokens d’entrée, de sortie et de cache, selon le modèle employé. L’explication officielle est claire : Copilot ne se limite plus à un assistant dans l’éditeur, mais devient une plateforme agentic capable d’exécuter des sessions longues et multi-étapes sur des référentiels entiers. Cet usage génère une demande de calcul et d’inférence bien plus importante qu’une question rapide dans un chat.
La documentation pour les entreprises renforce ce message. GitHub définit les crédits IA comme unité de facturation, avec 1 crédit équivalent à 0,01 dollar, permettant de contrôler les budgets par organisation, entreprise, centre de coût ou utilisateur. Elle précise également qu’une session longue avec un agent de programmation utilisant un modèle de référence coûte plus, car il accomplit davantage de travail.
L’interprétation pour le monde de l’entreprise est évidente : le coût de l’IA ne reste plus enfermé dans une licence unique, mais devient plus proche du cloud et ressemble davantage au cloud. Personne de raisonnable ne déploierait une infrastructure sans budgets, limites, observabilité et alertes. Pourtant, beaucoup d’entreprises ont déployé l’IA comme si c’était un simple outil bureautique, ce qui touche à sa fin.
Microsoft, Uber et la révolution financière de l’IA
Le cas de Microsoft est particulièrement emblématique. Selon The Verge, la société envisage de retirer la majorité de ses licences internes pour Claude Code dans sa division Experiences + Devices et de transférer de nombreux développeurs vers GitHub Copilot CLI. Microsoft aurait informé en interne que cette décision vise à converger vers Copilot CLI comme interface principale, bien que des sources citées évoquent aussi des raisons financières liées à la clôture de l’année fiscale.
Il ne faut pas simplifier : Microsoft ne dit pas que Claude est inutilisable. D’ailleurs, l’information indique que les modèles d’Anthropic resteront accessibles via Copilot CLI, et que Microsoft continue d’utiliser Claude dans divers produits. Ce qui importe, c’est une autre réalité : même une grande entreprise technologique bénéficiant d’un positionnement privilégié dans le cloud, les modèles et l’infrastructure, commence à rationaliser l’accès interne à l’IA lorsque l’usage commence à impact sur le résultat financier.
Uber donne une autre indication de cette tendance. Selon AI Magazine, la société aurait épuisé son budget IA pour 2026 en seulement quatre mois, principalement en raison d’une utilisation intensive des outils de programmation assistée. Bien que ce chiffre provienne de sources secondaires et doive être interprété avec prudence, il reflète un schéma déjà observé dans plusieurs entreprises : l’adoption réelle peut dépasser largement ce qui avait été prévu initialement.
Anthropic a également dû ajuster ses estimations publiques concernant Claude Code. Selon Business Insider, l’entreprise aurait doublé son coût moyen estimé par développeur et par jour d’utilisation en déploiements d’entreprise, passant de 6 à 13 dollars, avec un budget mensuel compris entre 150 et 250 dollars par développeur. Elle précise qu’il ne s’agit pas d’une augmentation de prix, mais d’une actualisation liée à l’utilisation de modèles plus avancés et de nouveaux modes de consommation.
Ce distinguo est crucial. Le tarif officiel peut demeurer inchangé, mais le coût réel, lui, augmente. Si un outil devient plus performant, les employés l’utilisent davantage. Si les agents sont capables de gérer des tâches plus longues, ils consomment plus de contexte. Si une équipe automatise revues, tests, documentation ou analyses d’incidents, la facture s’alourdit même si chaque token coûte moins cher qu’il y a un an.
| Signal du marché | Ce que cela indique réellement | Implication pour les entreprises |
|---|---|---|
| Copilot devient AI Credits | La tarification simple ne couvre pas une utilisation intensive agentic | Nécessité de budgets et de limites par équipe |
| Microsoft réduit ses licences Claude | Le choix d’outils devient aussi une décision financière | Pression accrue pour rationaliser les fournisseurs |
| Claude augmente ses estimations de coût | Des modèles plus sophistiqués modifient le mode de consommation | Les prévisions de dépenses annuelles deviennent incertaines |
| Uber aurait épuisé son budget IA | Adoption massive dépasse souvent les prévisions initiales | Le FinOps pour l’IA devient incontournable |
| Agents de code avec des factures astronomiques | L’automatisation continue amplifie la consommation | Il faut définir quels tâches valent l’investissement dans des modèles de pointe |
La productivité ne suffit pas sans une mesure des coûts
La justification habituelle de ces outils est que si leur utilisation accroît la productivité, le coût est justifié. Cela peut être vrai, mais ce n’est plus suffisant. Une entreprise doit connaître la productivité réelle, par équipe, avec quels modèles et à quel prix. Sans cette mesure, l’IA devient une ligne de dépense expansive, alimentée par l’enthousiasme plutôt que par le retour sur investissement.
L’exemple extrême d’OpenClaw illustre bien le problème, même s’il est hors normes pour une entreprise moyenne. Selon Tom’s Hardware, Peter Steinberger aurait utilisé plus de 1,3 million de dollars en tokens OpenAI en 30 jours, avec 603 milliards de tokens et 7,6 millions de requêtes générées par une centaine d’instances Codex. La dépense était couverte par OpenAI, dans un contexte de développement non limité par un budget, mais cela permet d’apprécier ce qu’il advient quand on supprime les freins.
À l’autre extrémité se trouve Salesforce. Marc Benioff a affirmé que l’entreprise pourrait dépenser près de 300 millions de dollars en tokens d’Anthropic cette année, tout en défendant la productivité apportée par les agents de programmation, et en appelant à une couche intermédiaire pour décider quelles requêtes doivent passer par des modèles de référence ou plus petits.
Cette couche intermédiaire sera l’un des composants clés de la prochaine étape. Toutes les tâches ne peuvent profiter d’un modèle de pointe, mais dégrader tous les cas d’usage en modèles plus simples équivaut à une perte de qualité. Il faudra donc mettre en place un routage intelligent, du cache, des limites par tâche, une évaluation de la qualité, une surveillance de la consommation et des politiques claires pour décider quand il est pertinent de payer pour des modèles coûteux.
L’IA ne remplace pas le cloud : elle en fait une discipline financière
Le principal enseignement de cette phase, c’est que l’IA en entreprise ressemble moins à un simple logiciel qu’à une infrastructure critique. Elle engendre des coûts variables, une dépendance à des capacités externes, un risque d’excès de consommation, des différences entre fournisseurs, des problématiques de latence, des impératifs de sécurité et des choix architecturaux. Le débat va donc évoluer vers le FinOps de l’IA, le cloud hybride, les modèles open source, l’inférence en local et la gouvernance des données.
Toutes les entreprises n’ont pas besoin de bâtir leur propre infrastructure IA. Pour beaucoup, continuer à consommer des APIs reste une solution raisonnable. Mais pour des flux stables, répétitifs, sensibles ou à fort volume, la réflexion doit changer. Si un processus consomme des millions de tokens chaque jour, la question de savoir s’il doit toujours passer par un fournisseur externe ne sera plus discutable.
La phase de « test de tout parce que l’IA coûte peu » laisse place à une étape plus sereine : utiliser l’IA là où cela a du sens, mesurer le retour sur investissement et concevoir des architectures évitant que chaque amélioration de productivité ne devienne une facture imprévisible. Les fournisseurs chercheront à préserver leurs marges, et les clients à maîtriser leurs coûts. Un dialogue exigeant s’engagera, portant sur prix, limites, modèles et la valeur réellement créée.
L’IA n’est pas devenue coûteuse parce qu’elle commence à coûter, au contraire : elle devient chère parce qu’elle est réellement utilisée. La question cruciale est de savoir qui capte la valeur de cet usage : le fournisseur du modèle, la plateforme de développement, le cloud exécutant l’inférence, ou l’entreprise elle-même, censée transformer ces tokens en productivité concrète.
Questions fréquentes
Pourquoi le coût de l’IA en entreprise augmente-t-il ?
Car l’usage est passé de tests ponctuels à des outils intégrés dans le quotidien : agents de programmation, automatisations, sessions longues consommant beaucoup plus de tokens.
Que sont les AI Credits de GitHub Copilot ?
Ce sont des unités de facturation correspondant à la consommation de modèles IA dans Copilot, calculées à partir de tokens d’entrée, de sortie et de cache selon le modèle utilisé.
Les licences à tarif fixe en IA disparaîtront-elles ?
Pas forcément, mais elles évolueront probablement vers des limites, crédits, budgets ou coûts supplémentaires pour un usage intensif. La tarification fixe sans contrôle devient difficile à maintenir avec des agents autonomes.
Que doivent faire les entreprises ?
Mesurer la consommation par équipe et cas d’usage, établir des budgets, choisir des modèles adaptés, utiliser du cache, revoir les contrats et considérer l’IA comme une infrastructure variable plutôt que comme une simple licence logicielle.
Source : Noticias Inteligencia Artificial