La conférence SC25, organisée à Saint-Louis (Missouri), a confirmé une tendance que beaucoup dans le secteur pressentaient déjà : la supercalculabilité ne se limite plus à accélérer les calculs, mais consiste désormais à repenser entièrement la conception et le fonctionnement des centres de données à l’ère de l’intelligence artificielle. NVIDIA en a profité pour dévoiler une gamme technologique d’envergure, impactant tous les niveaux de la pile : GPU, CPU, DPUs, réseaux photonique, calcul quantique, efficacité énergétique et même l’environnement de développement desktop.
Le message est clair : les « usines IA » — capables d’entraîner et déployer des modèles comptant des milliards de paramètres — nécessitent une architecture cohérente, efficace et toujours plus intelligente. NVIDIA ambitionne de devenir le système d’exploitation de référence de ces usines.
DGX Spark : le superordinateur qui tient sur un bureau
Parmi les stars de SC25 se trouve NVIDIA DGX Spark, présenté comme le « superordinateur IA le plus petit du monde ». Il s’agit d’un ordinateur de bureau offrant 1 pétaflop de puissance IA et 128 Go de mémoire unifiée, suffisants pour réaliser des inférences sur des modèles allant jusqu’à 200 milliards de paramètres et affiner localement de grands modèles.
Ce dispositif repose sur l’architecture Grace Blackwell, intégrant CPU, GPU, réseaux et toute la pile logiciel NVIDIA AI dans un format compact. Le résultat est une station de travail qui rapproche de votre bureau ce qui nécessitait jusque-là un rack entier.
Un des points clés de DGX Spark est l’utilisation de NVLink-C2C, qui offre jusqu’à 5 fois plus de bande passante que PCIe Gen5 entre CPU et GPU. Cela se traduit par :
- Moins de goulets d’étranglement pour les transferts de données entre mémoire CPU et GPU.
- Des inférences plus rapides et plus efficaces sur des modèles immenses.
- Des flux de travail de fine-tuning et d’expérimentation beaucoup plus agiles, sans dépendre exclusivement du cluster central.
Il est symbolique que Jensen Huang, fondateur et PDG de NVIDIA, soit apparu inopinément à SC25 pour offrir plusieurs unités de DGX Spark et plaisanter en disant qu’elles « auraient fière allure sous le sapin de Noël ». Ce geste, qui en dit long, confirme aussi que la supercalculabilité IA n’est plus un rêve lointain : elle commence à entrer dans le quotidien individuel des équipes de développement.
BlueField-4 : la DPU qui agit comme « système d’exploitation » des usines d’IA
Alors que les clusters IA se développent, le vrai défi n’est plus seulement d’avoir davantage de GPU, mais d’alimenter et d’orchestrer efficacement ces ressources. C’est là qu’intervient NVIDIA BlueField-4, la nouvelle génération de DPUs (Data Processing Units), conçue pour devenir le « système d’exploitation » des usines IA.
BlueField-4 combine :
- Une CPU NVIDIA Grace de 64 cœurs.
- NVIDIA ConnectX-9 pour réseaux à très haute vitesse.
- Une intégration native avec NVIDIA DOCA, le framework de microservices pour réseaux, stockage et sécurité.
Son rôle consiste à décharger le CPU et le GPU de l’ensemble des tâches d’infrastructure :
- Réseaux : flux massifs est-ouest, télémétrie en temps réel, virtualisation des réseaux.
- Stockage : accès parallèle à des données structurées, non structurées et « IA-natives » (datasets, checkpoints, embeddings…).
- Sécurité : segmentation, zero-trust, chiffrement et isolation entre locataires.
Trois acteurs majeurs du stockage pour IA et HPC — DDN, VAST Data et WEKA — se construisent déjà sur BlueField-4 pour rapprocher leurs services de stockage des GPU :
- DDN vise à maximiser l’utilisation des GPU en accélérant les pipelines de données pour entraînements et simulations massives.
- VAST Data mise sur la gestion intelligente des données en temps réel à travers de grands clusters IA.
- WEKA propose son architecture NeuralMesh sur BlueField-4, exécutant des services de stockage directement dans la DPU pour simplifier et accélérer l’infrastructure IA.
Concrètement, BlueField-4 transforme stockage et réseaux en multiplicateurs de performance, plutôt qu’en simples « goulets d’étranglement » que le hardware de calcul doit attendre.
Réseaux photonique Quantum-X : moins d’énergie, plus de résilience pour des réseaux à 800 Gb/s
Si les GPU constituent le moteur des usines IA, le système de communication en est le système circulatoire. Sur ce point, NVIDIA met l’accent sur deux enjeux clés : efficacité énergétique et fiabilité.
Les nouveaux switches NVIDIA Quantum-X Photonics InfiniBand CPO intègrent directement l’optique dans le commutateur (co-packaged optics), éliminant ainsi les transceivers classiques en modules interchangeables, souvent points faibles dans les déploiements à grande échelle.
Selon NVIDIA, cette approche d’intégration optique offre :
- Une meilleure efficacité énergétique jusqu’à 3,5 fois.
- Une résilience multipliée par 10, réduisant considérablement les défaillances liées aux liens optiques.
- Une continuité de service jusqu’à cinq fois plus longue dans les applications sensibles.
Des centres comme TACC (Texas Advanced Computing Center), Lambda et CoreWeave ont annoncé leur intention d’intégrer Quantum-X Photonics pour leurs prochains systèmes, afin de supporter des charges IA massives avec des coûts opérationnels inférieurs et une stabilité accrue.
Cette nouvelle gamme complète les switches NVIDIA Quantum-X800 InfiniBand, capables d’atteindre 800 Gb/s de débit de bout en bout, avec des innovations telles que SHARPv4 (réduction du trafic routant dans le réseau) et le support du FP8 pour entraîner des modèles de milliards de paramètres en réduisant le trafic inter-nœuds.
NVIDIA Apollo et Warp : la physique entre dans l’ère de l’IA
La supercalculabilité de l’ère de l’IA ne se limite pas à « plus de GPU » : il s’agit aussi de modèles et de frameworks innovants permettant de simuler le monde physique plus rapidement et avec davantage de précision.
NVIDIA Apollo : modèles ouverts pour la simulation physique
À SC25, NVIDIA a présenté NVIDIA Apollo, une famille de modèles ouverts pour l’IA appliquée à la physique. Conçus pour accélérer les simulations dans des domaines comme :
- La conception électronique et la fabrication de semi-conducteurs.
- La dynamique des fluides numériques (CFD).
- La mécanique des structures et l’électromagnétisme.
- La modélisation climatique, météorologique et de phénomènes complexes.
Apollo associe architectures de machine learning de pointe —opérateurs neuronaux, transformers et méthodes de diffusion— à une expertise spécifique du domaine. NVIDIA fournira points de contrôle pré-entraînés et flux de référence pour l’entraînement, l’inférence et la mise en œuvre, permettant aux entreprises d’adapter ces modèles à leurs besoins.
De grands acteurs industriels comme Applied Materials, Cadence, LAM Research, Luminary Cloud, KLA, PhysicsX, Rescale, Siemens ou Synopsys intègrent déjà Apollo dans leurs pipelines de conception et de simulation.
NVIDIA Warp : performance CUDA et productivité Python
En complément, NVIDIA Warp se positionne comme framework open source en Python pour accélérer la simulation physique et les charges IA, jusqu’à 245 fois plus vite sur GPU.
Warp permet :
- d’écrire des kernels de simulation en Python avec une syntaxe simple et intuitive,
- de les compiler en code CUDA optimisé,
- et de facilement intégrer ces simulations dans des flux avec PyTorch, JAX, NVIDIA PhysicsNeMo et NVIDIA Omniverse.
Des entreprises comme Siemens, Neural Concept et Luminary Cloud utilisent déjà Warp pour construire des workflows de simulation GPU en 3D à grande échelle, générant des données pour entraîner et valider leurs modèles IA. Leur credo : réduire la barrière d’accès à la simulation haute performance pour les ingénieurs et chercheurs utilisant Python, sans qu’ils aient besoin de maîtriser CUDA en détail.
NVQLink : le pont entre supercalculateurs GPU et processeurs quantiques
Un des annonces à forte portée stratégique concerne NVQLink, un interconnexion universelle reliant les processeurs quantiques (QPU) aux GPU de NVIDIA, pour bâtir des systèmes hybrides quantique-classique.
NVQLink promet :
- Jusqu’à 40 pétaflops de performance IA en double précision FP4 dans des workflows hybrides.
- Des latences de l’ordre du microseconde, essentielles pour la correction d’erreurs quantiques et le contrôle en temps réel.
- Une architecture ouverte sur CUDA-Q, permettant aux chercheurs et centres de supercalcul de intégrer différents QPU sous un même modèle de programmation.
L’exemple le plus remarquable est celui de Quantinuum, dont le nouveau QPU Helios est connecté aux GPU NVIDIA via NVQLink, pour réaliser :
- La première décodification en temps réel des codes de correction d’erreurs qLDPC.
- Une fidélité proche de 99 %, contre environ 95 % sans correction.
- Un temps de réaction de 60 microsecondes, 16 fois meilleur que la limite d’1 milliseconde fixée pour Helios.
De nombreux centres de supercalcul à travers l’Europe, les États-Unis et l’Asie-Pacifique — comme JSC, CINECA, AIST G-QuAT, RIKEN, KISTI, NCHC, Pawsey, ainsi que plusieurs laboratoires nationaux américains — ont annoncé leur intention d’adopter NVQLink pour faire avancer leur recherche en informatique quantique concrète.
Japon, Arm et la course à l’efficacité énergétique
La vision de NVIDIA ne se limite pas au hardware et au software : elle englobe aussi la géopolitique de l’IA et le défi majeur : l’énergie.
RIKEN et le Japon : IA et recherche quantique souveraines
NVIDIA et RIKEN développent deux nouveaux supercalculateurs équipés de GPU au Japon, intégrant un total de 2 140 GPU Blackwell connectés via GB200 NVL4 et réseaux Quantum-X800.
- Un système doté de 1 600 GPU dédié à la recherche en IA pour la science (vie, matériaux, climat, industrie, automation de laboratoire).
- Un second, avec 540 GPU, concentré sur la recherche en calcul quantique, les algorithmes hybrides et la simulation.
Ces infrastructures complètent le projet FugakuNEXT, un partenariat entre RIKEN, Fujitsu et NVIDIA, visant à offrir 100 fois plus de performance que Fugaku actuel, tout en intégrant des ordinateurs quantiques en production d’ici 2030.
Arm + NVLink Fusion : connecter CPU et GPU à l’échelle du rack
Parallèlement, Arm intègre NVIDIA NVLink Fusion, un interconnect cohérent à très haut débit issu de Grace Blackwell.
Ce projet vise à relier les CPU basés sur Arm Neoverse avec GPUs et autres accélérateurs dans une architecture unifiée à l’échelle du rack, afin d’éliminer les goulots d’étranglement en mémoire et en bande passante limitant la performance IA.
Alors que tous les grands fournisseurs —AWS, Google, Microsoft, Oracle, Meta— construisent déjà autour de Neoverse, la combinaison avec NVLink Fusion pourrait devenir une norme incontournable pour des infrastructures IA performantes et économes en énergie dans les années à venir.
Domain Power Service : l’énergie comme ressource flexible
Enfin, NVIDIA aborde un sujet aussi critique que la puissance : celui de l’alimentation des usines d’IA, sans faire exploser la facture d’électricité ou surcharge la grille électrique.
Le nouveau Domain Power Service (DPS) envisage la puissance électrique comme une ressource dynamique, que l’on modélise et orchestre à l’image de la gestion des CPU, GPU ou mémoire. Il fonctionne comme un service basé sur Kubernetes, capable de :
- Modéliser la consommation énergétique du rack à l’ensemble de l’installation.
- Ajuster intelligemment la limite de puissance pour maximiser les performances par kilowatt.
- Se coordonner avec NVIDIA Omniverse DSX Blueprint, Power Reservation Steering et Workload Power Profile dans la suite DSX Boost, pour équilibrer charge et efficacité.
De plus, DPS expose des API vers le réseau électrique, facilitant des mécanismes automatiques de réponse à la demande et de réduction de charge lors des pics, afin que les centres de données IA participent à la stabilisation du réseau électrique, plutôt que d’en être une charge supplémentaire.
Questions fréquentes sur la nouvelle ère du supercalcul NVIDIA
1. Qu’est-ce que NVIDIA DGX Spark, et qui sont ses principaux utilisateurs ?
DGX Spark est un superordinateur IA de bureau offrant 1 pétaflop et 128 Go de mémoire unifiée. Conçu pour les chercheurs, les ingénieurs et les entreprises, il permet d’expérimenter, réaliser des inférences et affiner des modèles jusqu’à 200 milliards de paramètres localement, sans dépendre exclusivement d’un grand cluster central.
2. Que apporte NVIDIA BlueField-4 DPU dans une « usine IA » ?
BlueField-4 délègue toutes les tâches réseaux, stockage et sécurité du CPU et du GPU à une DPU spécialisée équipée d’un CPU Grace et du réseau ConnectX-9. Il libère ainsi des ressources pour l’entraînement et l’inférence, tout en renforçant la sécurité et en rapprochant les services de stockage des GPU, réduisant la latence et augmentant leur utilisation.
3. Quelles différences avec les switches InfiniBand traditionnels ?
Les switches Quantum-X Photonics intègrent directement l’optique dans le commutateur grâce aux optiques co-emballées (co-packaged optics), sans modules transceivers interchangeables. Cela diminue les défaillances, augmente l’efficacité énergétique (jusqu’à 3,5 fois) et la résilience (10 fois), permettant de faire fonctionner les applications d’IA sur la durée avec moins de consommation électrique.
4. Pourquoi NVQLink est-il crucial pour la calculabilité quantique pratique ?
NVQLink constitue un pont à très faible latence entre QPU et GPU, permettant la correction d’erreurs en temps réel et le déploiement de workflows hybrides. La réussite de Quantinuum avec son QPU Helios, connectée via NVQLink pour faire la décodification en temps réel et obtenir une fidélité proche de 99 %, illustre cette avancée majeure pour faire sortir la computation quantique du laboratoire.
Sources :
- Blog NVIDIA – “Accelerated Computing, Networking Drive Supercomputing in Age of AI”
- Communiqués et documents publics de NVIDIA concernant DGX Spark, BlueField-4, Quantum-X, Apollo, Warp, NVQLink et Domain Power Service
via : blogs.nvidia