NVIDIA Vera Rubin n’est plus seulement une GPU : ainsi évolue l’IA agentique

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

NVIDIA a profité du GTC 2026 pour clarifier que son prochain grand projet ne tourne plus autour d’une seule GPU ultra-puissante, mais d’une plateforme complète conçue pour couvrir toutes les phases de l’intelligence artificielle moderne. Baptisée Vera Rubin, la société a présenté un ensemble de sept puces et cinq types de racks qui, selon leur annonce officielle, sont déjà en production. Ces composants s’assemblent pour former un « superordinateur » unique dédié au pré-entraînement, au post-entraînement, au scaling en temps de test et à l’inférence intelligente en temps réel.

La nouveauté ne réside pas uniquement dans la puissance brute, mais aussi dans une nouvelle approche stratégique. Pendant des années, NVIDIA a défendu l’idée qu’une seule famille de GPU pouvait répondre à presque toutes les nécessités en IA. Vera Rubin incarne une évolution beaucoup plus ambitieuse, mais également pragmatique : des CPU dédiées pour les environnements d’agents et de reinforcement learning, des GPU pour l’entraînement et l’inférence, des LPUs de Groq pour une inférence à faible latence, des racks de stockage optimisés pour la mémoire contextuelle, et un réseau intégré basé sur Ethernet et InfiniBand. En réalité, cela marque une reconnaissance que l’ère de l’IA agentique ne se limite plus à augmenter le nombre de FLOPS dans une GPU.

De l’intégration individuelle à une plateforme complète de racks et de PODs

NVIDIA décrit Vera Rubin comme une transition d’un serveur isolé à un système de racks, puis à un POD d’IA entièrement intégré en usine. Cela se concrétise à travers plusieurs composants. Le plus visible est Vera Rubin NVL72, un rack doté de 72 GPU Rubin et de 36 CPU Vera connectés via NVLink 6, SuperNIC ConnectX-9 et les DPU BlueField-4. La société affirme que cette configuration permet d’entraîner de grands modèles de type « mixture-of-experts » avec un quart des GPU nécessaires pour Blackwell, tout en atteignant jusqu’à 10 fois plus de débit d’inférence par watt, à une fraction du coût par token. Il s’agit de chiffres officiels NVIDIA, non vérifiés par des tiers, mais qui donnent une idée de l’échelle des ambitions.

Le second élément clé est le Vera CPU Rack. Présenté comme une infrastructure compacte et refroidie par liquide, il comprend 256 CPU Vera. Destiné à héberger en masse les environnements d’exécution utilisés par les agents IA et les systèmes de reinforcement learning, il facilite la mise à l’échelle des tests, la validation et l’orchestration des résultats. Cela indique clairement la direction du marché visé : pas seulement des modèles qui répondent à des prompts, mais des systèmes capables d’itérer, d’explorer différentes voies, d’utiliser des outils variés, nécessitant une infrastructure CPU beaucoup plus visible et intégrée par rapport aux générations précédentes.

Groq au cœur de Vera Rubin

Le développement le plus emblématique est l’intégration de NVIDIA Groq 3 LPX, un rack d’inférence comprenant 256 processeurs LPU, 128 Go de SRAM sur puce, et un débit de 640 To/s. NVIDIA assure que, déployé avec Vera Rubin NVL72, ce module permet d’accélérer le décodage en faisant en sorte que GPU et LPU calculent conjointement chaque couche du modèle en sortie. La société promet jusqu’à 35 fois plus d’efficacité en inférence par mégawatt, et jusqu’à 10 fois plus de capacité à générer des revenus avec des modèles d’un billion de paramètres. Bien que ces chiffres soient positionnés dans une optique commerciale, ils traduisent une volonté claire : NVIDIA ne veut pas seulement vendre des GPU, mais dominer aussi le domaine de l’inférence spécialisée à très faible latence.

Cette nuance est particulièrement cruciale en 2026. L’inférence agentique nécessite des contextes étendus, des réponses rapides et une efficacité énergétique accrue. La consolidation technologique avec Groq, ainsi que la conception de Vera Rubin comme une plateforme modulable par phase de travail, reflètent cette nouvelle réalité. En clair, NVIDIA construit un ensemble intégré où différentes composantes travaillent de concert au sein d’une même usine d‘IA. C’est probablement la plus forte indication jusqu’ici que l’entreprise a dépassé la vision d’« une seule GPU pour tout ».

Stockage et réseau intégrés dès la conception

La plateforme comprend également BlueField-4 STX, un rack de stockage que NVIDIA qualifie d’« infrastructure native à l’IA » pour étendre la mémoire de contexte à l’échelle d’un POD. La société le relie au nouveau framework DOCA Memos, qui promet d’augmenter jusqu’à cinq fois le débit d’inférence en accélérant la gestion du cache KV pour de grands modèles. À cela s’ajoute Spectrum-6 SPX Ethernet, qui constitue la colonne vertébrale du trafic est-ouest entre racks. Il peut être configuré avec Spectrum-X Ethernet ou Quantum-X800 InfiniBand. NVIDIA souligne aussi l’utilisation d’optique co-packagée pour optimiser l’efficacité énergétique et la résilience face aux transceivers classiques.

Tout ceci traduit une orientation claire : la compétition ne se limite plus à l’accélérateur principal. La mémoire de contexte, le stockage du cache KV, le réseau interne du POD et la gestion de l’énergie entrent dans le même espace stratégique que la GPU. NVIDIA cherche à intégrer tout cela dans un seul design de référence, en proposant également DSX Max-Q et DSX Flex, des couches permettant d’optimiser l’utilisation électrique et d’accroître la flexibilité des usines d’IA face à différents besoins. Selon NVIDIA, DSX Max-Q pourrait permettre d’installer 30 % de capacité supplémentaire dans un datacenter à puissance constante, tandis que DSX Flex convertirait ces installations en assets « flexibles à la grille électrique ».

Disponibilité, écosystème et défis à venir

NVIDIA annonce que les systèmes basés sur Vera Rubin seront accessibles via ses partenaires à partir de la seconde moitié de 2026. Parmi les fournisseurs cloud cités, figurent AWS, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure, ainsi que des partenaires spécialisés tels que CoreWeave, Crusoe, Lambda, Nebius, Nscale et Together AI. Des constructeurs comme Cisco, Dell, HPE, Lenovo, Supermicro, ASUS, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron et Wiwynn complètent la liste. Par ailleurs, des laboratoires et acteurs de la recherche avancée, comme Anthropic, Meta, Mistral AI et OpenAI, prévoient d’utiliser cette plateforme à l’avenir.

Il est toutefois important de nuancer : la disponibilité immédiate reste conditionnée à la sortie officielle, et la maturité de l’écosystème n’est pas encore totale. La véritable question est le comportement réel hors des démos, l’adoption concrète des racks avec LPUs, le coût opérationnel par rapport à Blackwell, et surtout si le marché validera cette mutation d’une GPU universelle vers une infrastructure d’IA intégrée en tant qu’unité économique autonome. Néanmoins, le GTC 2026 laisse une conclusion claire : Vera Rubin n’est pas simplement la prochaine GPU de NVIDIA, c’est la première plateforme où la société révèle ouvertement comment elle envisage l’infrastructure de l’IA agentique à l’échelle industrielle.

Questions fréquentes

Qu’est-ce que précisément NVIDIA Vera Rubin ?

C’est une nouvelle plateforme d’infrastructure IA annoncée par NVIDIA lors du GTC 2026. Elle intègre sept types de puces — dont Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6, et Groq 3 LPU — ainsi que divers racks conçus pour le entraînement, le post-entraînement, le scaling en test et l’inférence agentique.

En quoi cette plateforme diffère-t-elle des générations antérieures comme Blackwell ?

La principale différence réside dans son architecture plus hétérogène. Vera Rubin ne repose plus uniquement sur une GPU, mais assemble racks spécialisés pour GPU, CPU, inférence avec LPU, stockage contextuel et connectivité haute vitesse, fonctionnant comme un seul système intégré.

Quel rôle joue Groq dans Vera Rubin ?

NVIDIA a intégré Groq 3 LPX en tant que rack d’inférence à faible latence. Selon la société, ses LPUs travaillent en collaboration avec les GPU Rubin pour accélérer particulièrement la phase de décodage dans les modèles de grande taille et à contexte prolongé.

Quand ces systèmes Vera Rubin seront-ils disponibles ?

NVIDIA prévoit que ses produits Vera Rubin seront accessibles via ses partenaires dans la seconde moitié de 2026. Parmi eux, figurent de grandes cloud providers, fabricants de serveurs et laboratoires de recherche en IA de premier plan.