L’Arctique revendique le « cerveau » du centre de données IA : le CPU revient au centre de la scène avec NVIDIA Rubin

L'Arctique revendique le « cerveau » du centre de données IA : le CPU revient au centre de la scène avec NVIDIA Rubin

Pendant des années, le récit de l’infrastructure d’intelligence artificielle semblait avoir un seul protagoniste : le GPU. Mais Arm ouvre une voie différente (et, pour beaucoup, inévitable) : la seule véritable façon de faire évoluer l’IA est la conception d’un système complet, où la CPU — et de plus en plus également le DPU — devient la colle qui assure une réelle valeur aux accélérateurs.

Ce raisonnement explique l’annonce de NVIDIA Rubin lors du CES 2026, qui apparaît comme une validation de fond : l’industrie se dirige vers des racks et superclusters “co-conçus” (compute, réseau, stockage et sécurité conçus comme un seul produit) et, dans cette transition, les CPU basés sur Arm gagnent en importance comme couche d’orchestration, de coordination et de contrôle.

Du “plus de GPU” au “centre de données convergent”

Arm résume ce changement par une phrase percutante : les accélérateurs effectuent les calculs, mais ce sont les CPU qui transforment cette puissance en systèmes utilisables, en gérant le transfert de données, la synchronisation, l’isolement et la fiabilité à l’échelle. Dans un monde de modèles plus grands et, surtout, plus “d’agents” (IA qui planifie, raisonne et agit en enchaînant les outils), le goulet d’étranglement n’est plus seulement les FLOPs : c’est l’alimentation, la coordination et la sécurisation de l’usine IA.

C’est dans cette optique qu’émerge le concept de “centre de données convergent d’IA” : infrastructures denses, modulaires et fortement intégrées, maximisant la computation par mètre carré tout en tentant de contenir les coûts énergétiques et opérationnels.

Rubin : six puces, un “superordinateur” sous forme de plateforme

NVIDIA présente Rubin comme une plateforme de “co-conception extrême” regroupant six éléments : Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU et Spectrum-6 Ethernet Switch. Le but n’est pas seulement d’améliorer la performance, mais aussi de réduire les temps et les coûts lors de l’entraînement et de l’inférence à l’échelle d’un rack.

En résumé, NVIDIA souligne :

  • Jusqu’à 10 fois moins de coûts par token en inférence comparé à Blackwell.
  • Jusqu’à 4 fois moins de GPU pour entraîner des modèles Mixture-of-Experts (MoE) par rapport à la génération précédente.
  • Une impulsion supplémentaire avec le Ethernet Photonics dans Spectrum-X pour améliorer l’efficacité énergétique et la disponibilité.

Par ailleurs, cette annonce s’inscrit déjà dans des déploiements concrets, tels que les “Fairwater AI superfactories” de Microsoft (basées sur les systèmes NVL72 de Vera Rubin), et la volonté de certains fournisseurs, comme CoreWeave, d’être parmi les premiers à déployer Rubin en production.

Le changement clé : le DPU comme “serveur d’infrastructure” (et le stockage comme arme concurrentielle)

Un aspect intéressant de l’approche d’Arm est qu’elle ne se limite pas au CPU hôte. Elle met en avant la progression de BlueField-4 : plus qu’une simple carte réseau “ prête à l’emploi”, elle se comporte comme un processeur d’infrastructure capable de décharger des fonctions critiques du système hôte.

De son côté, NVIDIA a nommé cette idée une plateforme de stockage spécifique à l’IA : NVIDIA AI Inference Context Memory (AICON), conçue pour augmenter le nombre de tokens par seconde et l’efficacité énergétique, en s’appuyant sur BlueField-4 comme composant central.

La lecture implicite est claire : si les modèles de raisonnement et d’agents dépendent du contexte et de la mémoire, alors la frontière entre “compute” et “data” s’estompe. Le stockage n’est plus un périphérique supplémentaire, mais une partie intégrante de la performance finale.

AWS adopte aussi cette tendance avec Trainium3 : intégration pour réduire le coût par unité utile

Arm renforce sa thèse en citant l’exemple d’AWS Trainium3 : un système où accélérateur, CPU (Graviton) et composantes d’infrastructure (Nitro) sont conçus comme un tout intégré.

AWS affirme que Trainium3 offre :

  • Jusqu’à 4,4 fois plus de puissance de calcul et quatre fois plus d’efficacité énergétique par rapport à Trainium2.
  • 128 Go de HBM3e par puce et près de quatre fois plus de bande passante mémoire.
  • Des configurations “UltraServer” à l’échelle, avec des dizaines de puces et une forte agrégation de mémoire HBM.

Encore une fois, le message n’est pas “un nouvel accélérateur”, mais plutôt des plateformes tout-en-un visant à réduire frictions, latences et gaspillage énergétique.


Tableau comparatif rapide : deux approches vers un “système complet”

Plateforme Philosophie Piezas clés Approche de l’échelle Promesse principale
NVIDIA Rubin Co-conception extrême (6 puces comme “un seul système”) Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6 Rack-scale (NVL72) et superclusters Coût par token réduit et moins de GPU pour MoE
AWS Trainium3 Processeur propre + intégration verticale (compute + CPU + infrastructure) Trainium3 + Graviton + Nitro UltraServers et déploiement sur AWS Plus de performance et d’efficacité énergétique à chaque génération

Ce que cela signifie pour le marché

  1. Le CPU n’est plus “secondaire” dans l’IA : l’orchestration, la sécurité et le transfert de données deviennent les facteurs limitants dans les racks denses.
  2. L’infrastructure devient “produit” : à l’avenir, acheter de l’IA à grande échelle impliquera d’acheter des plates-formes complètes, et non plus des composants isolés.
  3. Réseau et stockage entrent dans la compétition : DPUs, NICs et “context memory” deviennent de véritables différenciateurs pour les agents et le raisonnement.

Questions fréquemment posées

Qu’est-ce qu’un “centre de données convergent” d’IA ?
Une approche où compute, réseau, stockage et sécurité sont conçus pour fonctionner comme un seul système, optimisé pour faire évoluer l’IA avec efficacité énergétique et contrôle opérationnel.

Pourquoi Arm insiste-t-il sur le rôle central du CPU si la GPU fait le gros du travail ?
Parce qu’à grande échelle, le défi n’est pas seulement de calculer, mais aussi de coordonner des milliers de GPU : alimenter les données, synchroniser les tâches, isoler les environnements, détecter les défaillances et assurer la stabilité du système.

Quel est le rôle d’un DPU comme BlueField-4 en IA ?
Il agit comme un “processeur d’infrastructure” : déchargé des tâches liées au réseau, à la sécurité ou au stockage du système hôte, il libère des ressources et améliore l’isolation et l’efficacité dans de très grands clusters.

Qu’apporte Rubin par rapport aux générations précédentes ?
Il s’agit d’une plateforme co-désignée à six puces visant à réduire les coûts d’inférence et à accélérer l’entraînement, tout en intégrant de nouvelles couches pour les agents et le raisonnement.

Source : newsroom.arm

le dernier