L’IA agentique redonne du poids aux CPU et modifie l’équilibre avec les GPU

L'IA agentique redonne du poids aux CPU et modifie l'équilibre avec les GPU

Au cours des dernières années, la conversation sur l’infrastructure pour l’intelligence artificielle semblait close : les GPU dominaient, reléguant les CPU à un rôle secondaire. Mais cet équilibre commence à évoluer. TrendForce affirme que l’avènement de l’IA agentique — des modèles capables de planifier des tâches, d’appeler des outils, de coordonner des sous-agents et d’exécuter des actions — bouleverse profondément la conception des centres de données et redonne du ressort aux CPU.

Le signe le plus évident est apparu en mars, lorsque NVIDIA a commencé à commercialiser sa Vera CPU en tant que produit autonome, et que Arm a présenté son premier processeur dédié aux centres de données, le Arm AGI CPU. La présence simultanée d’une entreprise reconnue pour ses GPU et d’une autre renommée pour ses architectures de licences, sur le marché des CPU pour serveurs, n’est pas un simple hasard : c’est le reflet d’une évolution dans la demande réelle des centres de données axés sur l’intelligence artificielle.

Pour les déploiements de modèles traditionnels, TrendForce estime que le ratio CPU:GPU tourne autour de 1:4 à 1:8. Dans l’ère des agents, ce rapport pourrait évoluer vers 1:1 ou 1:2, car la CPU reprend des tâches essentielles d’orchestration, de contrôle, d’évaluation et de gestion de mouvements de données. Arm estime ainsi que la demande pourrait passer de environ 30 millions de cœurs CPU par gigawatt dans les centres de données IA classiques à environ 120 millions dans un contexte dominé par les agents.

Pourquoi l’IA agentique nécessite-t-elle davantage de CPU ?

Tout réside dans la nature du travail. Si la GPU reste imbattable pour la computation massivement parallèle et le traitement matriciel qui alimentent l’entraînement et l’inférence des modèles, l’IA agentique ne se limite pas à la génération de tokens : elle découpe les tâches, coordonne les étapes, interroge des outils, consulta des bases de données, interprète du code, scrute des pages web et décide si la demande initiale a déjà été satisfaite. Ce « contrôle du trafic » est assurée par la CPU.

De plus, TrendForce souligne que dans ce type de charges, les goulots d’étranglement ne dépendent plus uniquement du accélérateur. L’IA agentique expose des limites liées à la latence, au débit et à la consommation énergétique du processeur généraliste. Selon l’analyse de la consultante, le traitement des outils sur CPU peut représenter jusqu’à 90,6 % de la latence totale dans certains processus, et la consommation dynamique de la CPU peut atteindre 44 % de la dépense énergétique totale lors de gros batches de travail.

Le tableau suivant résume, de façon simple, la répartition actuelle des rôles entre CPU et GPU dans les environnements d’intelligence artificielle, selon le schéma proposé par TrendForce.

Comparatif clé CPU GPU
Principe de calcul Logique complexe et traitement séquentiel Calcul parallèle simple
Nombre de cœurs Faible, de dizaines à centaines Elevé, de milliers à dizaines de milliers
Type de mémoire habituel DRAM HBM
Rôle en IA Pré-traitement des données, planification et orchestration Calcul du modèle et génération massive
Fabricants majeurs Intel, AMD, Ampere NVIDIA, AMD, Intel

Le marché se repositionne déjà

Ce changement d’équilibre se traduit également dans l’offre. NVIDIA Vera intègre 88 cœurs Olympus et 176 threads, dispose de NVLink-C2C avec 1,8 To/s de bande passante cohérente entre CPU et GPU, et d’un maximum de 1,2 To/s de bande passante mémoire. NVIDIA présente Vera comme une CPU conçue pour l’apprentissage par renforcement, la gestion de caches KV, et pour les flux d’agents avec de grands mouvements de données.

De son côté, Arm AGI CPU propose jusqu’à 136 cœurs Arm Neoverse V3, un TDP de 300 W et s’oriente clairement vers l’infrastructure d’agents, le contrôle des accélérateurs, et le cloud computing. Arm présente cette solution comme la base des futurs centres de données agentiques, en affirmant compter déjà avec des partenaires tels que Meta, Cloudflare, OpenAI, SAP, et SK Telecom.

Les grands fournisseurs de cloud progressent également. AWS Graviton5 est annoncé avec 192 cœurs par puce ; Microsoft Cobalt 200 dispose de 132 cœurs actifs ; et Google Axion N4A est proposé en instances avec jusqu’à 64 vCPU, chaque vCPU équivalent à un cœur physique en l’absence de SMT. Tout cela confirme que le marché des CPU pour centres de données ne se limite plus à Intel et AMD.

TrendForce prévoit pour 2026 une offensive encore plus large. Selon leur comparaison des cœurs et threads, on trouve AMD EPYC Venice avec 256 cœurs et 512 threads, Intel Xeon 6+ avec 288/288, Intel Xeon 7 avec 256/256 et AmpereOne MX avec 256/256. Il s’agit ici de projections et de feuille de route fournies par la consultante pour 2026, et non d’une photographie immédiate de produits déjà déployés.

Le tableau suivant fusionne des données officielles déjà annoncées avec la prévision 2026 de TrendForce, illustrant l’expansion du marché des CPU dédiées à l’IA et aux centres de données.

CPU phare en 2026 Nombre de cœurs Nombre de threads Situation
NVIDIA Vera 88 176 Annoncée officiellement
Arm AGI CPU 136 136 Annoncée officiellement
AWS Graviton5 192 192 Annoncée officiellement
Microsoft Cobalt 200 132 132 Annoncée officiellement
Google Axion N4A 64 64 Disponible en instances N4A
AMD EPYC Venice 256 512 Projection/devision TrendForce
Intel Xeon 6+ 288 288 Projection/devision TrendForce
Intel Xeon 7 256 256 Projection/devision TrendForce
AmpereOne MX 256 256 Projection/devision TrendForce

Ce n’est pas la fin du GPU, mais une répartition différente

Tout cela ne signifie pas que le GPU perde sa place centrale. TrendForce insiste : les accélérateurs continueront à jouer un rôle clé dans le calcul intensif des modèles. Ce qui change, c’est la distribution des rôles dans le système : au lieu d’une architecture où la majorité de la valeur reposait sur l’accélérateur, l’IA agentique oblige à renforcer la couche de contrôle et d’orchestration.

Cela explique pourquoi NVIDIA souhaite vendre Vera séparément, pourquoi Arm a évolué de la licence vers le développement de ses propres puces, et pourquoi AWS, Microsoft et Google poursuivent le développement de leurs CPU internes. La prochaine grande bataille dans les centres de données ne portera pas uniquement sur la vitesse de la GPU, mais sur le meilleur équilibre entre calcul parallèle, orchestration, latence, bande passante et efficacité énergétique. Sur cet échiquier, la CPU redevient une pièce stratégique.

Questions fréquentes

Pourquoi l’IA agentique nécessite-t-elle plus de CPU qu’un LLM traditionnel ?
Parce qu’elle ne se limite pas à générer du texte ou des réponses : elle coordonne des tâches, active des outils, déplace des données entre sous-agents et évalue les résultats. Cette couche d’orchestration repose sur la CPU.

Quel ratio CPU:GPU est utilisé aujourd’hui, et à quoi s’attendre dans l’ère de l’IA agentique ?
TrendForce indique un ratio actuel de 1:4 à 1:8 pour l’IA traditionnelle en centres de données, avec une prévision d’évolution vers 1:1 ou 1:2 dans l’ère des agents.

La GPU va-t-elle cesser d’être la pièce maîtresse en intelligence artificielle ?
Non. La GPU restera essentielle pour le calcul parallèle massif et la génération de tokens, mais la CPU gagne en importance puisque l’IA agentique exige davantage de contrôle, de planification et de gestion de flux de données.

Quels fabricants sont les mieux positionnés dans cette nouvelle phase ?
Intel et AMD restent des acteurs majeurs, mais le marché s’ouvre avec des propositions de NVIDIA, Arm et des grands fournisseurs cloud tels que AWS, Microsoft et Google.

Source : insights.trendforce

le dernier