NVIDIA refroidit Rubin CPX et réorganise sa stratégie d’inférence

Maria Lafaye D.

X (Twitter) Facebook Pinterest LinkedIn Email

NVIDIA semble reconsidérer le rôle de Rubin CPX, l’accélérateur d’inférence présenté en septembre 2025 comme un composant clé de la future plateforme Vera Rubin. Selon des sources industrielles citées par The Elec, la société n’aurait pas passé de commandes ni réalisé de développements liés à la mémoire GDDR7 ni aux substrats nécessaires pour ce produit, alors que son lancement était initialement prévu pour la seconde moitié de 2026.

Il ne s’agit pas d’une annulation officielle. NVIDIA n’a pas publiquement annoncé la disparition de Rubin CPX. Toutefois, l’absence de commandes pour la mémoire et les substrats, ainsi que son retrait du roadmap présenté lors du GTC 2026, alimentent l’hypothèse selon laquelle le produit aurait été annulé, reporté ou profondément redessiné. Dans une entreprise qui planifie sa chaîne d’approvisionnement sur plusieurs années, cette absence de mouvements à ce stade est un signal difficile à ignorer.

Rubin CPX avait une mission précise : cibler le marché de l’inférence en contexte étendu avec une architecture différente de celle des GPU de formation traditionnels. Plutôt que d’utiliser la mémoire HBM, la mémoire à haut débit qui domine les accélérateurs IA les plus coûteux, NVIDIA avait annoncé une configuration avec 128 Go de GDDR7. Ce choix n’était pas anodin. L’inférence ne requiert pas toujours l’atteinte du même débit extrême que la formation, mais exige capacité, contrôle des coûts et consommation réduite par opération.

De GDDR7 à SRAM : un changement de priorité

Lors de sa présentation, NVIDIA décrivait Rubin CPX comme une nouvelle classe de GPU optimisée pour l’inférence en contexte massif. La société évoquait jusqu’à 30 petaflops en précision NVFP4, 128 Go de mémoire GDDR7 et une amélioration jusqu’à trois fois en capacité d’attention par rapport aux systèmes GB300 NVL72. Le message était clair : l’IA agencéique, les contextes de millions de tokens et les applications de longue haleine nécessiteraient un accélérateur dédié pour gérer la phase initiale du contexte.

Le plan semblait cohérent sur le papier. Dans une architecture d’inférence dégelifiée, une partie du système traite le contexte en entrée, tandis qu’une autre se concentre sur la génération de tokens. Rubin CPX était censé obéir à cette première étape, très calculante et gourmande en mémoire, en utilisant la GDDR7 comme solution moins coûteuse et plus aisée à faire évoluer qu’une mémoire HBM.

Le problème est que le marché a évolué très vite. Lors du GTC 2026, NVIDIA a mis en avant Groq 3 LPX, une solution à faible latence basée sur des LPUs avec SRAM intégrée. La page officielle de NVIDIA présente d’ailleurs Groq 3 LPX comme l’accélérateur d’inférence pour Vera Rubin, destiné aux systèmes agencéiques à faible latence, avec de grandes fenêtres de contexte et un volume élevé de tokens.

Produit	Mémoire principale	Approche	Statut public
Rubin CPX	128 Go GDDR7	Inférence en contexte étendu et première phase de contexte	Présenté en 2025, absent du GTC 2026
Rubin GPU	HBM4	Calcul principal dans Vera Rubin	Composante centrale de la plateforme
Groq 3 LPU / LPX	SRAM + DDR5 en rack	Inférence à très faible latence et haut débit	Promu par NVIDIA pour Vera Rubin
GB300 NVL72	HBM3E / Blackwell	Entraînement et inférence à grande échelle	Ancienne plateforme de référence

L’écart technique est notable. La GDDR7, plus économique et plus facile à approvisionner que la HBM, reste une mémoire externe avec une latence plus élevée que la SRAM intégrée. Groq 3 LPU privilégie une mémoire nettement plus petite, mais extrêmement rapide. Chaque LPU intègre 500 Mo de SRAM avec un débit de 150 TB/s, et un rack LPX rassemble 256 LPUs, soit une SRAM totale de 128 Go, 12 TB de DDR5 et 40 PB/s de bande passante SRAM par rack, selon NVIDIA.

Dans l’inférence agencéique, où de nombreux systèmes doivent communiquer, produire des tokens avec faible latence et maintenir des interactions entre agents, cette architecture peut apparaître plus adaptée qu’un accélérateur basé sur la GDDR7. Pas forcément pour tous les usages, mais pour le type d’inférence en temps réel que NVIDIA souhaite promouvoir comme la nouvelle frontière des “usines IA”.

Le signal de la chaîne d’approvisionnement

L’aspect le plus révélateur des informations de The Elec concerne la chaîne d’approvisionnement. Les sources du média assurent qu’aucune commande ni demande de développement pour la mémoire GDDR7 de Rubin CPX n’ont été effectuées, ni même de mouvement au niveau des substrats. Un fournisseur de mémoire cité par le média indique qu NVIDIA aurait indiqué que Rubin CPX utiliserait la GDDR7, mais qu’il n’y aurait plus de discussions actives sur ce projet.

Pour les fabricants de mémoire et de substrats, Rubin CPX aurait pu ouvrir un nouveau marché. Aujourd’hui, la GDDR7 est principalement utilisée dans des cartes graphiques haut de gamme, comme la GeForce RTX 5090 et 5080. Un accélérateur d’inférence pour centres de données aurait considérablement élargi son champ d’application, avec des commandes massives et un positionnement au-delà du gaming ou des stations de travail.

Si Rubin CPX est mis de côté, cette opportunité est retardée. l’industrie de la mémoire espérait que la GDDR7 jouerait un rôle plus large dans l’IA, comme solution intermédiaire entre la DRAM conventionnelle et la HBM. La disparition du produit du roadmap visible de NVIDIA réduit cette attente, du moins à court terme.

Implication	À qui cela concerne
Moins de demande potentielle de GDDR7 en IA	Fabricants de mémoire
Réduction des volumes pour les substrats associés	Fournisseurs de PCB avancés
Augmentation de l’importance de la SRAM et des LPUs dans l’inférence	NVIDIA et l’écosystème Groq
Moins de dépendance à une seconde mémoire de masse	Planification de Vera Rubin
Possibilité de reconfiguration future de CPX	Clients attendant une trajectoire GDDR7

L’analyse industrielle est simple : lorsque aucune commande en mémoire ni en substrats n’intervient peu de temps avant une fenêtre de lancement prévue, il est rare que le produit reste totalement inchangé. Il peut exister des versions internes, des redesigns, des changements de clients ou des pièces hors du roadmap public, mais le plan initial est souvent remis en question.

L’inférence : le nouveau terrain de confrontation

La possible retraite ou révision de Rubin CPX reflète un changement plus large sur le marché de l’IA. Pendant la première phase du boom, la priorité était d’entraîner des modèles gigantesques. Les GPU avec HBM dominaient sans partage. Désormais, l’intérêt se déplace vers l’inférence : exécuter des modèles pour des millions d’utilisateurs, agents, assistants, moteurs de recherche, voix, vidéo et automatisation d’entreprise.

L’inférence possède une économie distincte. Il ne suffit pas d’avoir le chip le plus puissant ; il faut produire des tokens à bas coût, rapides, avec une faible latence. Un modèle peut être brillant, mais si sa réponse est tardive, qu’il consomme trop d’énergie ou ne se scale pas économiquement, cela devient un problème commercial.

C’est pourquoi NVIDIA étend son architecture. Vera Rubin ne se présente plus uniquement comme une GPU plus performante. C’est une plateforme multi-composants : CPU Vera, GPU Rubin, NVLink, BlueField, ConnectX, Spectrum-X, et désormais Groq 3 LPX comme accélérateur spécialisé pour l’inférence. La société cherche à garder la maîtrise de tout le système, même lorsque le goulet d’étranglement se déplace de la formation vers la génération en temps réel de tokens.

Ce mouvement répond aussi à la pression de la concurrence. Cerebras, Groq, avant sa fusion avec NVIDIA, ASICs hyper-espaces et architectures spécialisées ont insisté sur le fait que les GPU traditionnels ne sont pas toujours la meilleure solution pour l’inférence à faible latence. NVIDIA semble avoir intégré une partie de ces critiques, en ne supprimant pas ses GPU, mais en les entourant d’accélérateurs complémentaires.

Ce que cela signifie pour les clients et les concurrents

Pour les grands clients cloud, l’incertitude autour de Rubin CPX peut avoir des implications concrètes. Certaines architectures d’inférence avaient commencé à envisager une division entre chips optimisés pour le contexte et chips pour la génération. Si CPX est retardé ou abandonné, la planification peut s’orienter vers LPX, le GPU standard Rubin ou d’autres accélérateurs internes.

Pour les concurrents, ce message est ambivalent. D’un côté, la potentielle annulation de Rubin CPX montre qu’à l’image de NVIDIA ajuste sa feuille de route face aux évolutions du marché ou à l’émergence de technologies alternatives. De l’autre, l’intégration de Groq 3 LPX dans Vera Rubin confirme la capacité de NVIDIA à absorber ou intégrer des idées qui auraient pu menacer sa domination.

Pour les fournisseurs de mémoire, la nouvelle est moins favorable. L’engouement pour l’IA a dopé la demande de HBM, mais la GDDR7 nécessitait une entrée claire dans les centres de données pour justifier son extension. Rubin CPX semblait cette porte d’entrée. Son retrait retardera probablement l’expansion de la GDDR7 dans la grande inférence IA.

NVIDIA pourrait faire un choix pragmatique : au lieu de soutenir deux voies d’inférence parallèles – l’une basée sur la GDDR7, l’autre sur la SRAM via LPUs – elle privilégie le chemin qui favorise la faible latence, les agents et la performance par watt. Si cette stratégie aboutit, Rubin CPX pourrait être une étape transitoire abandonnée. Sinon, NVIDIA pourra recourir à d’autres moyens, avec une nouvelle mémoire ou une nouvelle génération.

Le marché de l’inférence entre dans une phase plus exigeante. Il ne s’agit plus seulement d’exécuter des modèles, mais de le faire à moindre coût, avec une faible latence et une efficacité suffisante pour permettre aux agents de fonctionner à grande échelle. Rubin CPX था une réponse potentielle. Groq 3 LPX semble désormais avoir pris cette place.

Questions fréquentes

Est-ce que NVIDIA a officiellement annulé Rubin CPX ?
Non. NVIDIA n’a pas encore annoncé officiellement son retrait. La question se pose en raison de l’absence du produit dans le roadmap du GTC 2026 et du manque de commandes de mémoire et de substrats, rapportés par des sources industrielles.

Qu’était Rubin CPX ?
C’était une GPU d’inférence annoncée par NVIDIA pour des charges de contexte long, avec 128 Go de mémoire GDDR7 et jusqu’à 30 petaflops en précision NVFP4.

Pourquoi la transition vers Groq 3 LPX est-elle importante ?
Parce que LPX utilise des LPUs avec SRAM à très faible latence, une architecture plus ciblée pour l’inférence agencéique, un volume élevé de tokens et des systèmes multi agents en temps réel.

Quel impact pour GDDR7 ?
Si Rubin CPX n’atteint pas le marché comme prévu, la GDDR7 perd une opportunité majeure de s’étendre au-delà des cartes graphiques haut de gamme vers les centres de données IA.

[Exclusif] Lancement incertain de NVIDIA « Rubin CPX »… pas de commandes mémoire ni de substrats

Le lancement du GPU d’inférence NVIDIA « Rubin CPX » est devenu incertain. Bien que la société ait initialement prévu de le sortir en seconde moitié de cette année, il a été confirmé que…

— Jukan (@jukan05) 27 mai 2026

X (Twitter) Facebook Pinterest LinkedIn Email

Maria Lafaye D.

Journaliste spécialisé dans les technologies, le cloud et l'intelligence artificielle, qui rédige en français à l'aide de l'IA pour des médias tels que Actualité Cloud.