NVIDIA Rubin : six puces, un « superordinateur » et la course à la réduction du coût du jeton à l’ère de l’IA de raisonnement

NVIDIA Rubin : six puces, un « superordinateur » et la course à la réduction du coût du jeton à l’ère de l’IA de raisonnement

NVIDIA a profité de l’enceinte du CES de Las Vegas pour annoncer le lancement de sa nouvelle plateforme de calcul dédiée à l’Intelligence Artificielle. Appelée Rubin, en hommage à l’astronome Vera Florence Cooper Rubin, cette plateforme véhicule un message fort : la demande en puissance de calcul pour l’entraînement et l’inférence « explose », entraînant une hausse significative des coûts pour déployer des modèles avancés en production. La solution proposée par NVIDIA est une architecture intégrée : six nouveaux composants qui agissent comme un seul superordinateur d’IA.

La plateforme Rubin repose sur un concept que la société qualifie de “co-design extrême” : CPU, GPU, réseau, sécurité, opérations et stockage évoluent de concert afin d’éviter que le système ne soit freiné par ses goulots d’étranglement habituels. En pratique, Rubin combine la CPU NVIDIA Vera, la GPU NVIDIA Rubin, le commutateur NVLink 6, la SuperNIC ConnectX-9, la DPU BlueField-4 et le commutateur Ethernet Spectrum-6. Son objectif : réduire drastiquement le temps d’entraînement et, surtout, le coût par token lors de l’inférence, alors que les modèles deviennent plus longs, multimodaux et “agents”.

Du “gpu-centrisme” à la fabrication d’IA

Depuis plusieurs années, le discours public sur l’infrastructure de l’IA se résume à un mot : GPU. Rubin tend à décaler l’attention vers une approche plus industrielle : la “usine d’IA”, où la performance ne dépend pas uniquement des accélérateurs, mais aussi du maillage réseau, de la sécurité des données, de la résilience du système et de l’efficacité énergétique.

Jensen Huang, fondateur et CEO de NVIDIA, a positionné l’annonce dans cette perspective : Rubin arrive “au bon moment”, avec une cadence annuelle de nouvelles générations de “superordinateurs d’IA”, et une intégration entre chips visant à atteindre “la prochaine frontière” du secteur.

Les ambitions de la société sont élevées : jusqu’à 10 fois moins de coût par token en inférence par rapport à Blackwell, et la possibilité d’entraîner des modèles Mixture-of-Experts (MoE) avec quatre fois moins de GPUs que la génération précédente, selon ses chiffres. La plateforme cible des charges courantes dans les laboratoires et les grandes plateformes : raisonnement multi-étapes, mémoire étendue, agents exécutant des actions et génération vidéo à grande échelle.

Deux formats pour différents profils : NVL72 et HGX NVL8

Rubin n’apparaît pas comme une pièce isolée, mais plutôt comme des systèmes complets. NVIDIA met en avant deux principales configuration :

  • NVIDIA Vera Rubin NVL72, une solution “rack-scale” regroupant 72 GPUs Rubin, 36 CPUs Vera, NVLink 6, ConnectX-9, BlueField-4 et Spectrum-6.
  • NVIDIA HGX Rubin NVL8, une plateforme dédiée aux serveurs, connectant 8 GPUs Rubin via NVLink, conçue pour des environnements génératifs basés sur x86, ainsi que pour la HPC et la recherche scientifique.

Le message sous-jacent : toutes les organisations n’adopteront pas Rubin avec la même échelle ou le même degré d’intégration. Pour certains, une conception avec huit GPUs sur une seule carte sera adaptée ; pour d’autres, l’objectif sera d’opérer des racks comme des unités cohérentes de mémoire et de calcul.

Cinq innovations pour une IA encore plus “coûteuse” à “briser”

NVIDIA affirme que Rubin introduit cinq avancées majeures ciblant directement les problèmes liés à la montée en charge : communication entre GPUs, efficacité, sécurité, maintenance et performance stable en production.

  1. NVLink de sixième génération : chaque GPU offre 3,6 TB/s de bande passante, et le rack NVL72 atteint 260 TB/s au total. La société évoque un volume supérieur à celui de « tout Internet » pour illustrer la magnitude. De plus, le commutateur NVLink 6 intègre un calcul “inside the network” pour accélérer les opérations collectives, avec des améliorations en termes de service et de résilience.
  2. CPU NVIDIA Vera : conçue pour le raisonnement agentique et l’efficacité énergétique, avec 88 cœurs Olympus personnalisés, supportant pleinement Armv9.2 et connectée via NVLink-C2C pour un flux de données haut débit entre CPU et GPU.
  3. GPU NVIDIA Rubin : intégrant un Transformer Engine de troisième génération avec compression adaptative accélérée par hardware, offrant 50 petaflops NVFP4 pour l’inférence, selon NVIDIA.
  4. Confidential Computing de troisième génération : Netflix le premier système “rack-scale” à étendre cette protection des données et des charges à travers CPU, GPU et NVLink, afin de sécuriser les modèles propriétaires et opérations sensibles.
  5. RAS Engine de deuxième génération : avec des vérifications de santé en temps réel, une tolérance aux pannes et une maintenance proactive. NVIDIA met aussi en avant un design modulaire “sans câbles” pour accélérer le montage et la maintenance, par rapport à Blackwell.

L’objectif est clair : quand on travaille avec des clusters massifs, le problème n’est pas si l’on manque de FLOPS, mais si l’ensemble du système peut suivre le rythme d’exploitation, de déploiement, de maintenance et de sécurité.

Le “contexte” comme nouveau goulet d’étranglement : stockage natif pour l’inférence

L’un des annonces phares de Rubin concerne le stockage. NVIDIA a présenté la Inference Context Memory Storage Platform, une nouvelle catégorie d’infrastructure conçue pour faire évoluer un élément devenu critique avec les modèles modernes : le contexte d’inférence.

Dans les modèles de raisonnement et d’agents, il ne s’agit pas d’un simple prompt. Ce sont multiples tours de conversation, sessions longues, utilisateurs simultanés et tâches enchaînées. Dans ce contexte, le cache clé-valeur devient essentiel pour réutiliser les états intermédiaires et éviter la recomputation.

Selon NVIDIA, cette plateforme — propulsée par BlueField-4 en tant que “processeur de stockage” — permet de partager et réutiliser ce cache entre différentes infrastructures, améliorant la réactivité et la performance, tout en offrant une scalabilité plus prévisible et une consommation plus efficace pour l’IA agentique.

Le DPU joue ici un double rôle : en plus de déplacer les données, BlueField-4 introduit ASTRA (Advanced Secure Trusted Resource Architecture), une approche de “confiance” au niveau du système permettant aux opérateurs d’isoler, provisionner et gérer des environnements multi-tenant ou bare-metal avec des performances maintenues. Un clin d’œil à un marché mêlant cloud public, “neoclouds” et plateformes d’entreprise, avec des déploiements de plus en plus fragmentés.

Ethernet photoniques et 800 Gb/s : le réseau comme catalyseur et non comme frein

Rubin met également l’accent sur le rôle critique du réseau pour supporter les charges “est-ouest” (entre serveurs) typiques de l’IA. L’Ethernet Spectrum-6 représente la prochaine génération de connectivité, avec des SerDes 200G, des optiques co-emballées et des tissus optimisés.

NVIDIA met en avant Spectrum-X Ethernet Photonics, avec une optique co-emballée : la société évoque jusqu’à 10 fois plus de fiabilité, 5 fois plus de temps d’activité et 5 fois plus d’efficacité énergétique par rapport aux approches traditionnelles, afin de maximiser le rendement par watt.

L’ambition n’est pas uniquement la vitesse : il s’agit aussi de transformer des sites séparés par des centaines de kilomètres en un seul environnement logique grâce à des technologies comme Spectrum-XGS. Cela permettrait à des centres de données dispersés de fonctionner comme une seule usine d’IA.

Enfin, NVIDIA annonce une suite de connectivité extrême-orientée à 800 Gb/s, comprenant deux voies : Quantum-X800 InfiniBand (pour des clusters ultra-faibles latences) et Spectrum-X Ethernet (pour une extension via des protocoles Ethernet standard optimisés IA). Avec SHARP v4 et un routage adaptatif, l’objectif est de décharger le réseau des opérations collectives.

DGX SuperPOD : le cadre pour faire évoluer Rubin

Pour concrétiser Rubin dans une architecture de référence, NVIDIA mise sur DGX SuperPOD comme “plan directeur” de déploiement. La version basée sur DGX Vera Rubin NVL72 assemble huit systèmes NVL72 en un seul ensemble, totalisant 576 GPUs Rubin, avec une puissance déclarée de 28,8 exaflops FP4 et 600 To de mémoire rapide. Chaque NVL72 comprend 36 CPUs Vera, 72 GPUs Rubin et 18 DPUs BlueField-4. Ce rack agit comme un moteur cohérent, réduisant la nécessité de décomposer les modèles en plusieurs parties.

Une autre version inclut DGX Rubin NVL8 : 64 systèmes totalisant 512 GPUs, facilitant une “montée en charge” vers Rubin avec refroidissement liquide et CPU x86. NVIDIA affirme que chaque système offre 5,5 fois plus de FLOPS NVFP4 comparé à des systèmes Blackwell équivalents.

Sur le plan opérationnel, NVIDIA Mission Control se positionne comme la couche de gestion et d’orchestration, automatisant les déploiements, intégrant la gestion de la puissance et du refroidissement, et renforçant la résilience par des réponses automatiques, avec notamment une détection rapide des fuites et une récupération autonome.

Écosystème et calendrier : deuxième moitié de 2026

Rubin ne constitue pas une solution isolée. NVIDIA prévoit une large adoption, auprès de fournisseurs cloud, de laboratoires IA et de fabricants de serveurs. Sur le cloud, des déploiements par AWS, Google Cloud, Microsoft et Oracle Cloud Infrastructure sont attendus dès 2026, ainsi que chez des partenaires comme CoreWeave, Lambda, Nebius et Nscale.

Microsoft apparaît comme un acteur stratégique : ses futures “superusines” d’IA Fairwater intégreront des systèmes Vera Rubin NVL72 et viseront à déployer des centaines de milliers de “superchips”, selon NVIDIA. CoreWeave est parmi les premiers à proposer Rubin en service, via Mission Control, avec pour objectif une architecture flexible permettant d’opérer plusieurs systèmes côte à côte, sans interruption de la production.

Le partenariat s’étend aussi au logiciel d’entreprise : Red Hat a annoncé un partenariat accru avec NVIDIA pour fournir une pile optimisée pour Rubin, comprenant Red Hat Enterprise Linux, Red Hat OpenShift et Red Hat AI, destinée à aider le secteur industriel à industrialiser ses projets d’IA, au-delà du seul laboratoire.


Questions fréquentes

Qu’est-ce que NVIDIA Rubin et pourquoi le qualifie-t-on de “six chips, un superordinateur d’IA” ?
Rubin est une plateforme “rack-scale” intégrant CPU, GPU, interconnexion NVLink, réseau, DPU et SuperNIC conçus pour fonctionner comme un tout, avec pour but de réduire les coûts d’inférence et d’accélérer la formation à grande échelle.

Quelle différence entre Vera Rubin NVL72 et HGX Rubin NVL8 pour le déploiement de modèles IA ?
NVL72 est un système complet à l’échelle d’un rack, avec 72 GPUs et 36 CPUs intégrés en un seul moteur cohérent ; HGX NVL8 est une plateforme serveur avec 8 GPUs reliées par NVLink, adaptée à l’intégration dans des infrastructures x86, avec une approche plus “traditionnelle”.

À quoi sert la Inference Context Memory Storage Platform et pourquoi est-ce crucial pour l’IA agentique ?
Elle vise à accélérer et faire évoluer le stockage natif du “contexte d’inférence” (ex : cache clé-valeur), réutilisé lors de sessions et raisonnement multi-étapes, afin d’améliorer la réactivité et la performance, en partageant cet état d’une infrastructure à l’autre.

Quand seront disponibles les systèmes basés sur Rubin et quels fournisseurs prévoient leur déploiement cloud ?
NVIDIA indique que Rubin est déjà en production et que les produits basés sur cette plateforme seront accessibles à partir de la deuxième moitié de 2026 via ses partenaires, notamment AWS, Google Cloud, Microsoft et OCI. Des déploiements sont également attendus chez CoreWeave.

source : nvidianews.nvidia

le dernier