Le ratio CPU:GPU dans les centres de données pourrait passer de 1:8 à 1:1 en quelques années. Selon le cabinet TrendForce, l’irruption de l’intelligence artificielle agentique rebat les cartes d’une infrastructure que tout le monde croyait stabilisée autour des seuls accélérateurs graphiques. Les CPU, longtemps reléguées au rang de composant secondaire dans la course à l’IA, redeviennent une pièce maîtresse de l’architecture des datacenters.
Le signal de ce basculement est apparu en mars 2026 quand NVIDIA a commencé à commercialiser son CPU Vera en produit autonome, et qu’Arm a dévoilé son tout premier processeur dédié aux serveurs, l’Arm AGI CPU. Que le champion mondial du GPU et le géant de la propriété intellectuelle ARM débarquent simultanément sur le marché des CPU pour datacenters n’a rien d’un hasard calendaire : c’est la traduction d’une demande qui change de nature à mesure que les agents autonomes prennent le relais des simples LLM.
Pourquoi l’IA agentique change la donne dans le datacenter
L’IA agentique ne se contente pas de générer des tokens. Elle découpe les tâches, coordonne des sous-agents, interroge des outils externes, consulte des bases de données, exécute du code, analyse des pages web et décide en boucle si l’objectif initial est atteint. Toute cette couche d’orchestration, de contrôle et de routage logique repose sur le CPU généraliste, pas sur l’accélérateur. Le GPU reste imbattable pour le calcul matriciel massivement parallèle qui alimente l’inférence et l’entraînement, mais il est mal armé pour les flux de contrôle complexes que multiplient les agents.
TrendForce avance des chiffres frappants. Pour les déploiements de modèles classiques, le ratio CPU:GPU se situe entre 1:4 et 1:8. Dans une infrastructure pensée pour des agents, ce rapport pourrait converger vers 1:1, voire 1:2. Arm va plus loin et estime que la demande passera d’environ 30 millions de cœurs CPU par gigawatt dans un datacenter IA traditionnel à près de 120 millions de cœurs par gigawatt dans un environnement dominé par les agents. Une multiplication par quatre qui explique l’agitation soudaine du marché des processeurs serveurs.
Plus révélateur encore : le traitement des outils sur CPU peut peser jusqu’à 90,6 % de la latence totale dans certains workflows agentiques, et la consommation dynamique du CPU peut représenter jusqu’à 44 % de la dépense énergétique globale sur les batches massifs. Autrement dit, le goulet d’étranglement migre. L’optimisation du CPU devient critique pour la performance et le TCO d’un cluster IA, alors que pendant des années toute l’attention se portait sur les HBM et les interconnexions GPU.
Le marché se repositionne à grande vitesse
La grille de l’offre 2026 reflète ce changement de paradigme. NVIDIA Vera embarque 88 cœurs Olympus et 176 threads, dispose d’un lien NVLink-C2C à 1,8 To/s de bande passante cohérente entre CPU et GPU, et atteint 1,2 To/s de bande passante mémoire. NVIDIA positionne explicitement Vera pour l’apprentissage par renforcement, la gestion de caches KV et les pipelines d’agents qui déplacent de gros volumes de données entre étapes.
De son côté, Arm AGI CPU rompt avec le modèle de licence pure et propose jusqu’à 136 cœurs Neoverse V3 dans une enveloppe de 300 W, avec un cap clairement assumé sur l’infrastructure d’agents, le contrôle d’accélérateurs et le cloud. Arm revendique déjà des partenaires de premier plan : Meta, Cloudflare, OpenAI, SAP et SK Telecom. Une liste qui pèse lourd quand il s’agit de convaincre les hyperscalers de basculer vers une architecture concurrente d’x86.
Les fournisseurs de cloud n’ont d’ailleurs pas attendu pour avancer leurs propres pions. AWS Graviton5 est annoncé avec 192 cœurs par puce, Microsoft Cobalt 200 embarque 132 cœurs actifs, et Google Axion N4A est déjà disponible en instances allant jusqu’à 64 vCPU physiques. Trois preuves supplémentaires que le marché du CPU serveur ne se résume plus au duopole Intel-AMD : la verticalisation hyperscaler s’accélère, et chaque grand cloud veut son silicium maison pour le contrôle des agents.
Les chiffres clés du basculement CPU/GPU
| Comparatif | CPU | GPU |
|---|---|---|
| Principe de calcul | Logique complexe et traitement séquentiel | Calcul parallèle massif |
| Nombre de cœurs | De dizaines à centaines | De milliers à dizaines de milliers |
| Mémoire dominante | DRAM | HBM |
| Rôle dans un workflow IA | Pré-traitement, planification, orchestration | Calcul du modèle et génération massive |
| Acteurs majeurs | Intel, AMD, Ampere, Arm, NVIDIA | NVIDIA, AMD, Intel |
TrendForce projette une offensive encore plus large pour le reste de 2026 et 2027. Sur la feuille de route serveur, AMD EPYC Venice doit aligner 256 cœurs et 512 threads, Intel Xeon 6+ visera 288 cœurs et threads, Intel Xeon 7 et AmpereOne MX tablent sur 256 cœurs. Cette inflation du nombre de cœurs n’est pas anodine : elle répond directement au besoin de paralléliser non pas du calcul matriciel, mais des centaines d’appels d’outils et de sous-agents simultanés. Une logique très différente de celle qui a poussé les générations précédentes.
| CPU phare en 2026 | Cœurs | Threads | Statut |
|---|---|---|---|
| NVIDIA Vera | 88 | 176 | Annoncée officiellement |
| Arm AGI CPU | 136 | 136 | Annoncée officiellement |
| AWS Graviton5 | 192 | 192 | Annoncée officiellement |
| Microsoft Cobalt 200 | 132 | 132 | Annoncée officiellement |
| Google Axion N4A | 64 | 64 | Disponible en instances N4A |
| AMD EPYC Venice | 256 | 512 | Roadmap TrendForce |
| Intel Xeon 6+ | 288 | 288 | Roadmap TrendForce |
| Intel Xeon 7 | 256 | 256 | Roadmap TrendForce |
| AmpereOne MX | 256 | 256 | Roadmap TrendForce |
Implications pour les hyperscalers et la concurrence
Le mouvement n’est pas qu’une affaire de spécifications. Il acte la fin du dogme selon lequel l’avantage compétitif dans les datacenters IA reposait quasi exclusivement sur l’accélérateur. Désormais, le CPU redevient un terrain stratégique sur lequel se jouent l’orchestration agentique, la latence d’appel d’outils, la gestion mémoire et l’efficacité énergétique. C’est précisément pour cette raison que Google Cloud a fait de l’entreprise agentique l’axe central de Next 26, en présentant les agents non plus comme une couche d’assistance mais comme une infrastructure de production.
Sur le terrain industriel, on assiste également à une diversification accélérée des fondeurs. La concurrence chinoise n’est pas en reste : le Hygon C86-5G aligne 128 cœurs physiques et SMT4 avec une compatibilité CXL 2.0, dans un contexte de découplage technologique. À l’autre extrémité, l’écosystème RISC-V monte en puissance, avec des cas comme celui de VerCore, un processeur conçu par un agent d’IA en douze heures, qui pose la question de la disruption à plus long terme du processus même de design des puces.
Pour les responsables d’infrastructure, cette redistribution des rôles a une conséquence directe sur la planification de capacité. Les modèles d’achat « GPU + CPU d’accompagnement » doivent évoluer vers des architectures équilibrées, où chaque accélérateur est associé à un CPU haute performance capable de soutenir le trafic d’orchestration. Les CFO devront aussi recalibrer leurs business cases : le coût total d’un cluster d’agents ne se résume plus au prix du GPU, mais inclut une part beaucoup plus visible de silicium généraliste, de mémoire DRAM et d’interconnexion cohérente type NVLink-C2C ou CXL.
Perspectives : le CPU redevient une pièce stratégique
Tout cela ne signifie pas que le GPU perd sa centralité. Les accélérateurs resteront indispensables pour le calcul intensif des modèles, et la HBM continuera de capter une part majeure des investissements. Ce qui change, c’est la répartition de la valeur dans le système. Au lieu d’une architecture où l’essentiel reposait sur l’accélérateur, l’IA agentique impose de muscler la couche de contrôle. NVIDIA l’a compris en commercialisant Vera séparément ; Arm en franchissant le pas vers ses propres puces ; AWS, Microsoft et Google en accélérant leurs CPU maison.
La prochaine grande bataille des datacenters ne se livrera donc pas uniquement sur les FLOPS bruts. Elle se jouera sur le meilleur équilibre entre calcul parallèle, orchestration, latence, bande passante mémoire et efficacité énergétique. Sur cet échiquier reconfiguré par l’IA agentique, le CPU redevient une pièce stratégique de premier plan, et les acheteurs d’infrastructure feraient bien de revoir leurs ratios. La fenêtre d’arbitrage entre approvisionnements GPU et CPU, ouverte en 2025, se referme en 2026 sur un nouvel équilibre dont les contours restent à trancher d’ici la fin d’année.
Questions fréquentes
Pourquoi l’IA agentique nécessite-t-elle plus de CPU qu’un LLM traditionnel ?
Un LLM classique se concentre sur la génération de tokens, une tâche idéalement parallélisable sur GPU. L’IA agentique, elle, coordonne des outils externes, déplace des données entre sous-agents, exécute du code et évalue les résultats étape par étape. Cette logique d’orchestration séquentielle s’appuie naturellement sur le CPU, ce qui explique la hausse spectaculaire de la demande en cœurs généralistes par gigawatt installé.
Quel ratio CPU:GPU est utilisé aujourd’hui dans les datacenters IA ?
Selon TrendForce, le ratio actuel pour les charges IA traditionnelles tourne autour de 1:4 à 1:8. Dans un environnement dominé par les agents autonomes, ce rapport est attendu en évolution vers 1:1 ou 1:2 dans les prochaines années, ce qui correspond à une multiplication par quatre de la demande de cœurs CPU par gigawatt de capacité installée.
Le GPU va-t-il perdre sa centralité dans l’intelligence artificielle ?
Non. Le GPU restera essentiel pour le calcul parallèle massif, l’entraînement des grands modèles et la génération de tokens à grande échelle. Ce qui change, c’est la répartition de la valeur dans le système : la couche d’orchestration et de contrôle, portée par le CPU, devient un facteur de différenciation aussi critique que la puissance de l’accélérateur.
Quels fabricants sont les mieux positionnés sur le CPU agentique ?
Intel et AMD restent dominants sur l’x86, mais le marché s’ouvre largement avec NVIDIA Vera, Arm AGI CPU et les puces maison des hyperscalers (AWS Graviton5, Microsoft Cobalt 200, Google Axion). L’écosystème Ampere et la concurrence chinoise comme Hygon ajoutent une pression supplémentaire. La diversification des architectures est l’une des grandes tendances 2026.
Quel impact sur le coût total d’un cluster d’IA agentique ?
Le TCO se rééquilibre. Le poste GPU reste majeur, mais la part allouée aux CPU haute performance, à la DRAM et aux interconnexions cohérentes (NVLink-C2C, CXL) augmente sensiblement. Les responsables d’infrastructure doivent revoir leurs modèles d’achat « GPU + CPU d’accompagnement » au profit d’architectures plus équilibrées, sous peine de voir le contrôle d’agents devenir le nouveau goulet d’étranglement.
Source : TrendForce Insights.