Microsoft a mis en production le premier cluster à grande échelle avec NVIDIA GB300 NVL72 pour les charges de travail d’OpenAI. Il ne s’agit ni d’un pilote ni d’une preuve de concept : la société confirme plus de 4 600 systèmes GB300 NVL72 déployés, avec des GPU Blackwell Ultra interconnectés via le nouveau réseau NVIDIA InfiniBand Quantum-X800. Cette étape marque l’ouverture d’une nouvelle ère pour l’infrastructure IA, qui, selon Redmond, permettra d’entraîner en semaines ce qui nécessitait auparavant des mois, et ouvrira la voie à des modèles comptant des centaines de billions de paramètres (en nomenclature anglo-saxonne, trillions).
Mais l’ambition va au-delà de ce premier jalon. Microsoft insiste sur le fait que ce cluster est le premier d’une série : sa feuille de route prévoit la mise en place de centaines de milliers de GPU Blackwell Ultra répartis dans ses centres de données IA partout dans le monde. L’objectif est double : accélérer l’entraînement de modèles de pointe et améliorer le rendement en inference en production, avec des fenêtres de contexte plus longues, des agents plus réactifs et une multimodalité à grande échelle.
« Ce système co-ingénierisé fournit le premier cluster GB300 de production à grande échelle au monde, moteur de supercalculateur dont OpenAI a besoin pour servir des modèles multibillionnaires en paramètres. Il établit la nouvelle norme ultime en matière de calcul accéléré », a souligné Ian Buck, vice-président en charge de Hyperscale and High-performance Computing chez NVIDIA.
De GB200 à GB300 : Azure repousse les limites de l’IA généraliste
Au début de l’année, Azure a lancé les machines virtuelles ND GB200 v6, basées sur l’architecture NVIDIA Blackwell. Ces VM sont devenues la pierre angulaire de plusieurs charges exigeantes du secteur ; OpenAI et Microsoft utilisaient déjà de grands clusters GB200 NVL2 dans Azure pour entraîner et déployer des modèles avancés.
La nouvelle génération ND GB300 v6 dépasse cette étape en étant conçue pour les modèles de raisonnement, IA agentifiante et générative multimodale. L’approche est rack-scale : chaque rack regroupe 18 VM avec un total de 72 GPU et 36 CPU Grace :
- 72 GPU NVIDIA Blackwell Ultra (avec 36 CPU NVIDIA Grace)
- 800 Gbit/s par GPU de bande passante inter-rack via le NVIDIA Quantum-X800 InfiniBand
- 130 TB/s de NVLink à l’intérieur du rack
- 37 TB de mémoire rapide par rack
- Jusqu’à 1 440 PFLOPS de performance FP4 Tensor Core par rack
L’architecture NVLink + NVSwitch réduit considérablement les goulets d’étranglement en matière de mémoire et de bande passante, permettant des transferts internes jusqu’à 130 TB/s sur 37 TB de mémoire à haute vitesse. En pratique, chaque rack fonctionne comme une unité fortement couplée qui augmente la performance en inference et diminue la latence même pour des modèles plus volumineux avec des contextes étendus, cruciaux pour les agents conversationnels et les systèmes multimodaux.
Montée en puissance sans perte : architecture fat-tree intégrale avec InfiniBand Quantum-X800
Au-delà du simple rack, Azure déploie une topologie fat-tree non bloquante utilisant le InfiniBand Quantum-X800 de NVIDIA, le réseau le plus rapide disponible à ce jour. Ce design vise un objectif précis : permettre aux clients de faire évoluer l’entraînement de modèles ultra-gros de manière efficace à plusieurs dizaines de milliers de GPU, avec une communication minimale.
Moins de synchronisations signifient une utilisation plus efficace des GPU, ce qui se traduit par des itérations plus rapides et des coûts inférieurs, même pour des entraînements intensifs. La pile co-conçue d’Azure — avec protocoles sur mesure, librairies collectives et in-network computing — exploite au maximum le réseau, alliant fiabilité et efficacité complète. Des technologies comme NVIDIA SHARP accélèrent les opérations collectives en réalisant le calcul directement dans le switch, doublant ainsi le bande passante effective et réduisant la pression sur les nœuds de terminaison, rendant le déploiement et l’inférence à grande échelle plus efficaces et prévisibles.
Ingénierie du centre de données : refroidissement, alimentation et logiciels spécifiquement adaptés à l’IA
L’arrivée de GB300 NVL72 ne se limite pas à une simple mise à niveau des cartes, elle implique une réflexion globale sur chaque composant du ‘stack’ —calcul, mémoire, réseau, data center, refroidissement et alimentation— en tant que système unifié.
- Refroidissement avancé. Azure utilise unités indépendantes de échangeurs de chaleur combinées à une refroidissement de l’installation pour minimiser la consommation d’eau et assurer la stabilité thermique dans des clusters denses et haute performance comme GB300 NVL72.
- Distribution électrique optimisée. La société développe constamment de nouveaux modèles de distribution d’énergie capable de supporter fortes densités et un équilibrage dynamique des charges, indispensables pour la classe ND GB300 v6.
- Logiciels ré-architecturés. Les systèmes de stockage, d’orchestration et de planification ont été reconçus pour tirer parti au maximum de la capacité de calcul, réseau et stockage à l’échelle du supercalcul avec haute efficacité et performance soutenue.
Le résultat est une plateforme qui ne se contente pas d’accélérer l’entraînement : elle réduit la latence et augmente le débit en inference, même lors de traitements de longs contextes et de multi-modalité (texte, vision, audio).
Ce que cela change pour OpenAI (et pour l’écosystème dans son ensemble)
Pour OpenAI, la disponibilité du premier cluster GB300 à grande échelle sur Azure offre un moteur de supercalculateur capable de modèles multibillionnaires en paramètres, avec des cycles d’entraînement plus courts. Produire et déployer des modèles de pointe avec des fenêtres de contexte plus longues, des raisons plus profondes et des capacités agentifantes avancées exige des fermes de calcul coordonnées où NVLink/NVSwitch et InfiniBand jouent un rôle clé pour limiter la synchronisation et optimiser le trafic collectif.
Pour les autres clients d’Azure, ND GB300 v6 s’impose comme la nouvelle référence en infrastructure IA. Là où auparavant un ‘job’ durait des mois, l’objectif est désormais de le réaliser en semaine(s). Là où l’inférence à grande échelle impliquait des compromis en termes de latence ou de taille de modèle, la promesse est de fournir des réponses plus rapides et plus de contexte. Cette évolution ouvre de nouvelles possibilités dans des cas d’usage auparavant limités par des contraintes physiques : assistants multimodaux à haut contexte, IA agentifiante avec mémoire étendue, systèmes de recommandation et recherche générative avec une fraîcheur et un rappel améliorés, ou encore simulateurs intégrant langage, vision et signaux structurés.
L’ingénierie au service de l’échelle : du rack aux dizaines de milliers de GPU
Le rack constitue le modèle de base : 72 GPU Blackwell Ultra couplés avec NVLink/NVSwitch et 37 TB de mémoire rapide reliés par 130 TB/s de bande passante. Ce « bloc » se reproduit dans le réseau InfiniBand Quantum-X800, qui offre 800 Gbit/s par GPU pour une montée en charge sans blocage entre racks (architecture fat-tree). Sur cette base, on construit les librairies collectives et les mécanismes d’in-network computing — tels que NVIDIA SHARP — qui réduisent le trafic de réductions et de diffusions en déployant les opérations directement dans le switch, doublant ainsi le bande passante effective et allégeant la charge sur les nœuds finaux.
La somme constitue un cluster adaptable maintenant des taux d’utilisation élevés des GPU, ce qui est essentiel puisque chaque pourcentage d’efficience supplémentaire peut représenter des millions d’euros de gains en entraînement prolongé.
Une infrastructure construite sur des années d’investissement
Microsoft souligne que cette avancée ne résulte pas du hasard. La société a investi pendant des années dans l’infrastructure IA, ce qui lui permet d’adopter rapidement GB300 NVL72 en production et d’accélérer son déploiement mondial. Au fur et à mesure que Azure étendra ces clusters, ses clients pourront entraîner et déployer de nouveaux modèles en un temps beaucoup plus court qu’auparavant.
Microsoft s’engage à continuer à publier des métriques et benchmarks de performance alors que le déploiement global du NVIDIA GB300 NVL72 progresse.
Pourquoi cela a de l’importance : quatre aspects essentiels
- Entraînement plus rapide, itérations moins coûteuses. Si l’entraînement passe de mois à semaines, le rythme des hypothèses et des améliorations s’accélère. En IA, le temps d’itération est le multiplicateur qui distingue ceux qui avancent de ceux qui poursuivent.
- Modèles plus grands et plus performants. La synergie de FP4, NVLink et InfiniBand permet la création de modèles comptant des centaines de billions de paramètres (multitrillion) et de longs contextes, se traduisant par des réponses plus précises, moins fragmentées, et plus contextuelles.
- Performances d’inférence améliorées avec moins de compromis. Grâce à des clusters ultra-coupés et des librairies collectives optimisées, il est possible d’obtenir de faibles latences même pour des modèles volumineux et avec des longs contextes.
- Un écosystème intégré et une co-innovation continue. La réussite repose aussi sur le partenariat étroit avec NVIDIA : Blackwell Ultra, Grace, NVLink/NVSwitch, Quantum-X800, et SHARP constituent les briques fondamentales, tandis qu’Azure apporte les centres de données, l’énergie, la refroidissement, la planification et le logiciel pour soutenir cette avancée à grande échelle.
Fiche technique (par rack ND GB300 v6)
- 72 GPU NVIDIA Blackwell Ultra + 36 CPU Grace
- 800 Gbit/s par GPU (échelle inter-racks) via InfiniBand Quantum-X800
- 130 TB/s de NVLink intra-rack
- 37 TB de mémoire rapide
- Jusqu’à 1 440 PFLOPS en FP4 Tensor Core
Conclusion
L’introduction en production du premier cluster GB300 NVL72 à grande échelle place Azure en position de leader évident en supercalcul IA pour les modèles de pointe. Si la stratégie d’échelle à des centaines de milliers de GPUs se poursuit à ce rythme, le secteur pourrait voir ses cycles d’entraînement passer à une fréquence hebdomadaire, tout en accélérant un flux de modèles toujours plus grands, rapides et performants dans les domaines des agents et de la multimodalité. L’enjeu n’est pas seulement technique, mais systémique : du silicium jusqu’aux centres de données, en passant par le réseau et les piliers logiciels.
La collaboration étroite avec NVIDIA représente à la fois une force et une vulnérabilité : elle concentre la technologie de pointe dans une voie unique d’évolution qui, pour l’instant, domine le marché. À court terme, pour OpenAI et ses clients d’Azure, le message est clair : plus de capacité, plus vite, avec moins de friction opérationnelle pour entraîner et inférer à grande échelle.
Questions fréquentes (FAQ)
Qu’est-ce que le NVIDIA GB300 NVL72 et en quoi diffère-t-il du GB200 NVL2 utilisé auparavant sur Azure ?
Le GB300 NVL72 est la nouvelle génération Blackwell Ultra que Azure a déployée à grande échelle en production ; le ND GB300 v6 est conçu pour raisonnement, IA agentifiante et multimodale. Azure utilisait déjà GB200 NVL2, mais GB300 augmente la mémoire, l’interconnexion NVLink et le réseau InfiniBand Quantum-X800, ce qui permet une meilleure performance en FP4, des contextes plus longs, et une efficacité accrue en entraînement et inférence.
Quelles sont les principales caractéristiques d’un rack ND GB300 v6 sur Azure ?
Pour chaque rack : 72 GPU Blackwell Ultra, 36 Grace, 130 TB/s de NVLink intra-rack, 800 Gbit/s par GPU entre racks via InfiniBand Quantum-X800, 37 TB de mémoire rapide et jusqu’à 1 440 PFLOPS en FP4. Chaque rack fonctionne comme une unité fortement couplée, avec faible latence et haute capacité de traitement.
Comment Azure atténue-t-il les goulets d’étranglement réseau à grande échelle ?
Avec une topologie fat-tree non bloquante sur InfiniBand Quantum-X800 et des librairies collectives optimisées. NVIDIA SHARP exécute les opérations collectives directement dans le switch, ce qui double le débit effectif et réduit la surcharge de synchronisation lors de l’entraînement à l’échelle de dizaines de milliers de GPU.
Quelle est la véritable incidence sur les délais et le type de modèles ?
Microsoft indique que ces nouveaux clusters permettent un entraînement en semaines plutôt qu’en mois, tout en favorisant des modèles plus volumineux (censés contenir des hundreds de billions de paramètres) et des contextes étendus. Résultat : des réponses plus précises, rapides, avec une meilleure synthèse.
Sources : azure.microsoft.com et blogs.nvidia.com