NVIDIA Rubin CPX : la nouvelle GPU qui inaugure l’ère de l’inférence avec des contextes massifs

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

L’intelligence artificielle ne connaît pas de pause, et le développement du matériel capable de supporter des modèles de plus en plus complexes et exigeants continue d’évoluer. NVIDIA a présenté Rubin CPX, une GPU qui représente non seulement une évolution par rapport aux générations précédentes, mais ouvre également une nouvelle catégorie au sein de l’écosystème CUDA : les processeurs pour inférence de contexte massif.

La société affirme que Rubin CPX permettra aux systèmes d’IA de traiter des fenêtres de contexte allant jusqu’à un million de tokens, une avancée inimaginable il y a à peine deux ans, avec un impact direct sur deux secteurs en forte croissance : l’assistance à la programmation et la génération vidéo multimodale.

Une nouvelle catégorie dans le matériel d’IA

NVIDIA décrit Rubin CPX comme la première GPU CUDA conçue pour soutenir des contextes à grande échelle, dans lesquels un modèle ne traite pas quelques milliers d’unités d’information, mais des centaines de milliers voire des millions.

Cela ouvre la voie à des copilotes de programmation qui ne se limitent pas à générer des fragments de code, mais qui comprennent des projets entiers : dépôts complets, documentation accumulée, et même l’historique des interactions. Parallèlement, des applications vidéo — allant des moteurs de recherche sémantiques à la réalisation cinématographique — pourront traiter une heure de contenu dans un seul contexte, ce qui nécessite de l’ordre de un million de tokens.

Pour y parvenir, Rubin CPX intègre des accélérateurs d’attention longue portée, des codecs vidéo et un design de silicium axé sur l’efficacité énergétique et la haute performance. Selon NVIDIA, cette nouvelle GPU offre jusqu’à 30 pétaflops en précision NVFP4, dispose de 128 Go de mémoire GDDR7 optimisée en termes de coûts, et triple la capacité d’attention des systèmes GB300 NVL72.

Vera Rubin NVL144 CPX : un rack avec 8 exaflops d’IA

Le lancement ne se limite pas à la GPU. Rubin CPX est intégré dans la plateforme NVIDIA Vera Rubin NVL144 CPX, un système combinant CPUs Vera, GPUs Rubin, et les nouveaux processeurs CPX dans une configuration capable d’atteindre 8 exaflops d’IA dans un seul rack.

À cela s’ajoutent 100 To de mémoire rapide et 1,7 pétaoctets par seconde de bande passante mémoire, ce qui représente une augmentation de 7,5 fois les performances par rapport aux générations antérieures. Pour ceux qui utilisent déjà des systèmes NVL144, NVIDIA proposera également une tray de calcul CPX, conçue pour augmenter leurs capacités sans remplacer toute leur infrastructure.

Jensen Huang : “L’IA à contexte massif marque la prochaine frontière”

Lors de la présentation, le PDG de NVIDIA, Jensen Huang, a comparé cette nouvelle avancée à d’autres jalons de la société :

“Tout comme RTX a révolutionné le graphisme et l’IA physique, Rubin CPX est la première GPU CUDA conçue pour l’IA à contexte massif. Les modèles ne travaillent plus avec quelques milliers de tokens, mais avec des millions, ce qui exige une architecture entièrement nouvelle.”

Avec cette stratégie, l’entreprise entend répondre à un marché en rapide évolution vers des fenêtres de contexte de six ou sept chiffres, aussi bien pour les modèles de langage que pour les applications multimodales.

De la recherche au business : la métrique du “revenu par token”

Au-delà des spécifications techniques, NVIDIA met en avant un angle économique. La société estime que les systèmes basés sur Rubin CPX peuvent générer 5 milliards de dollars de revenus par token pour chaque 100 millions d’investissements en infrastructure.

Ce chiffre dépend, bien sûr, de facteurs tels que le prix de marché d’un token ou le type de modèle utilisé. Cependant, il envoie un message clair : le hardware peut devenir un multiplicateur direct dans le business pour les plateformes d’IA qui facturent en fonction du nombre de tokens traités, que ce soit pour des copilotes de code, des moteurs de recherche vidéo ou des assistants multimodaux.

Premiers cas d’usage : logiciel, cinéma et agents autonomes

Différentes entreprises ont présenté comment Rubin CPX impactera leurs produits :

Cursor, un éditeur de code alimenté par IA, affirme que Rubin CPX leur permettra d’offrir une génération de code ultra-rapide et des agents capables de comprendre des bases de logiciel complètes, améliorant la collaboration entre humains et machines.
Runway, spécialisé dans la génération vidéo IA, voit dans cette GPU la possibilité de travailler avec des formats plus longs et avec des flux agentisés, offrant aux créateurs un contrôle accrue et un réalisme supérieur dans leurs productions.
Magic, une société développant des modèles pour des agents d’ingénierie logicielle, affirme qu’avec des fenêtres de 100 millions de tokens, leurs systèmes peuvent accéder à des années d’historique d’interactions, bibliothèques et documentation sans besoin de réentraîner, rapprochant le concept d’agents autonomes de programmation.

Ces exemples illustrent une tendance commune : le saut de l’échelle. Rubin CPX ne cherche pas à améliorer de 10 ou 20 % les flux existants, mais à permettre des charges de travail auparavant inaccessibles.

Ecosystème logiciel : Dynamo, Nemotron et NIM

Comme à l’accoutumée chez NVIDIA, le lancement s’accompagne d’une suite logicielle facilitant l’adoption :

NVIDIA Dynamo : plateforme d’inférence évolutive pour réduire latences et coûts.
Modèles Nemotron™ : famille multimodale conçue pour offrir un raisonnement avancé dans les agents d’entreprise.
NVIDIA AI Enterprise : distribution intégrant microservices NIM™, bibliothèques et frameworks prêts pour la production en cloud, datacenters et stations de travail accélérées.
CUDA-X™ : avec plus de 6 millions de développeurs et près de 6 000 applications, demeure la pierre angulaire de l’écosystème.

L’objectif est clair : permettre aux clients de passer de prototypes à la production sans friction, en tirant parti des capacités de Rubin CPX avec le logiciel qu’ils connaissent déjà.

Disponibilité et feuille de route

NVIDIA prévoit que Rubin CPX sera disponible d’ici la fin de 2026. Ce délai offre aux grands acteurs et aux géants de l’industrie la marge nécessaire pour planifier leur déploiement et ajuster leurs architectures de données.

Parallèlement, la société continuera d’étendre la famille Rubin et de renforcer l’intégration avec ses plateformes réseau telles que Quantum-X800 InfiniBand et Spectrum-X Ethernet, dans le but d’offrir des options aussi bien pour le HPC classique que pour les environnements cloud basés sur Ethernet.

Implications pour l’industrie

Cette annonce de Rubin CPX envoie un double message au marché :

Technologique : la frontière n’est plus dans l’augmentation du nombre de paramètres, mais dans l’expansion du contexte qu’un modèle peut traiter en temps réel.
Économique : la valeur se mesurera en tokens utiles traités, avec des latences compétitives et des coûts abordables. Ceux qui sauront optimiser cette équation auront un avantage dans le domaine des agents et assistants génératifs.

Rubin CPX vise à devenir la pièce maîtresse de cette nouvelle dynamique, en proposant à la fois la puissance technique et un cadre économique favorable pour des déploiements à grande échelle de l’IA, rentables et évolutifs.

Conclusion

Avec Rubin CPX, NVIDIA ne se contente pas de lancer une nouvelle GPU, mais propose un changement de paradigme : passer de la simple mesure du rendement en FLOPS à celle en tokens traités dans des contextes gigantesques.

Dans un contexte où la demande en IA explose et où les cas d’usage deviennent de plus en plus sophistiqués, cette orientation place la société au cœur des discussions sur l’avenir de l’inférence en IA.

Questions fréquemment posées (FAQ)

Qu’est-ce que NVIDIA Rubin CPX ?
Il s’agit d’une nouvelle GPU conçue pour l’inférence avec des contextes massifs, capable de gérer jusqu’à des millions de tokens dans des applications de code et de vidéo.

Quelles caractéristiques techniques ressortent ?
Rubin CPX atteint 30 pétaflops NVFP4, intègre 128 Go de GDDR7, offre une attention trois fois plus rapide que les générations précédentes, et fait partie de la plateforme Vera Rubin NVL144 CPX, qui propose 8 exaflops d’IA dans un seul rack.

Quelles applications seront les plus impactées ?
Les assistants de programmation nécessitant l’analyse de bases de code complètes, la génération et recherche vidéo multimodale, ainsi que les agents autonomes opérant sur de grands volumes d’informations.

Quand sera-t-elle disponible ?
NVIDIA prévoit de lancer Rubin CPX d’ici la fin de 2026, avec un support logiciel complet pour sa plateforme d’IA.

source : nvidianews.nvidia