Passer de consommer des tokens à en produire : le nouveau défi économique de l’IA d’entreprise
L’émergence de modèles avancés de raisonnement et d’agents d’intelligence artificielle transforme en profondeur la façon dont les entreprises planifient et budgétisent leurs stratégies technologiques. La consommation de tokens — l’unité de mesure sur laquelle repose la facturation de l’utilisation des grands modèles de langage — est en pleine hausse : les nouveaux modèles de raisonnement consomment entre 10 et 20 fois plus de tokens que les modèles standard simplement pour traiter un problème, un chiffre qui s’accroît de manière exponentielle lorsque les agents d’IA enchaînent les tâches et utilisent des outils de manière autonome.
Face à cette situation, les organisations doivent évoluer vers un nouveau paradigme : il ne s’agit plus uniquement d’utiliser les tokens de manière efficiente, mais de maîtriser l’infrastructure d’inférence, de router les requêtes vers le point d’accès le plus rentable et, dans de nombreux cas, d’exécuter leurs propres modèles hébergés en interne, optimisés pour les besoins spécifiques de l’entreprise.
Le parcours ‘Metal to Agents’
Red Hat l’illustre en définissant ce trajet comme un « Metal to Agents » : une stack ouverte et intégrée en bout en bout, où chaque couche — des accélérateurs matériels d’IA jusqu’aux agents eux-mêmes — est connectée et conçue avec la sécurité comme priorité. Cette infrastructure doit être compatible avec un écosystème hétérogène de matériel, comprenant des processeurs Nvidia, AMD, Intel et le silicium personnalisé des principaux fournisseurs cloud.
Au cœur de ce système se trouve l’inférence, le facteur clé pour faire évoluer toute stratégie d’IA. Red Hat affirme que ses travaux sur des projets tels que vLLM et l’inférence distribuée avec llm-d ont permis de réduire de dix fois le temps pour obtenir le premier token et de tripler la qualité des réponses dans des applications concrètes.
Les agents, cœur de la stratégie d’entreprise
Au-delà de l’infrastructure, l’attention se tourne désormais vers les services pour agents. Les agents d’IA ne sont plus de simples projets expérimentaux, mais deviennent le socle de la stratégie d’entreprise moderne, même si cela soulève de nouveaux défis en matière de gouvernance : différentes équipes utilisent des outils variés, ce qui nécessite d’attribuer à chaque agent une identité vérifiée, de gérer son cycle de vie avec contrôle des versions, et de s’appuyer sur des normes émergentes telles que MCP Services pour connecter agents, outils et données, tout en évitant toute faille de sécurité.
Exemples concrets : BNP Paribas et la NASA
Plusieurs organisations avancent déjà sur cette voie avec des résultats tangibles. BNP Paribas a généré près de 600 millions de dollars de valeur en industrialisant mille cas d’utilisation de l’IA sur une plateforme unifiée, transformant la mise à disposition de GPU — un processus auparavant prenant plusieurs semaines — en un service délivré en quelques minutes. De leur côté, le Marshall Space Flight Center de la NASA a adopté des plateformes similaires pour transférer des milliers de charges de travail héritées vers des environnements contenérisés, réduisant les temps de déploiement de plusieurs jours à quelques minutes dans des opérations critiques.
Ces exemples illustrent une tendance plus large : les stratégies d’IA ne se limitent plus à l’efficience et à la réduction des coûts mais deviennent des leviers de croissance et de revenus. L’objectif ultime, selon cette approche, est que les entreprises détiennent la plateforme supportant leurs opérations les plus critiques, combinant accès à des modèles de pointe avec un contrôle et une gouvernance que requiert toute équipe IT responsable.