NVIDIA accélère l’ère des modèles Mixture of Experts avec GB200 NVL72 et un saut de performance de 10x

NVIDIA accélère l'ère des modèles Mixture of Experts avec GB200 NVL72 et un saut de performance de 10x

La nouvelle génération de modèles d’intelligence artificielle les plus avancés s’appuie désormais sur une architecture clairement privilégiée : le Mixture of Experts (MoE). NVIDIA souhaite en faire le moteur principal de cette révolution. Son système GB200 NVL72, un design rack à grande échelle spécialement conçu pour une IA générative massive, atteint jusqu’à 10 fois plus de performance en inférence pour des modèles MoE de pointe tels que Kimi K2 Thinking, DeepSeek-R1 ou Mistral Large 3, par rapport à la génération précédente H200. Cela bouleverse l’économie de l’IA dans les grands centres de données.

Les véritables apports de l’architecture Mixture of Experts

Pendant des années, l’industrie a suivi une logique simple : pour rendre les modèles plus intelligents, il fallait les rendre plus grands. Des modèles denses atteignant des centaines de milliards de paramètres qui s’activent intégralement pour chaque token généré. Résultat : une capacité énorme… mais un coût computationnel et énergétique difficilement soutenable.

Les modèles MoE changent cette donne. Au lieu d’activer la totalité du modèle, ils organisent la redé en « experts » spécialisés. Un routeur décide quel sous-ensemble d’experts doit s’activer pour chaque token, à l’image du cerveau qui mobilise différentes régions selon la tâche à réaliser.

Cela permet de combiner une capacité totale de paramètres démentielle avec un nombre de paramètres actifs par token nettement réduit. La conséquence pratique est claire : plus d’intelligence et de raisonnement à un coût par token bien inférieur, avec une efficacité énergétique nettement supérieure.

Ce n’est pas une simple anecdote : dans le classement d’Artificial Analysis, les 10 modèles ouverts les plus avancés — notamment DeepSeek-R1, Kimi K2 Thinking ou Mistral Large 3 — utilisent tous des architectures MoE, témoignant que cette approche s’est imposée comme la norme de facto pour les modèles de pointe.

Le défi : faire évoluer MoE en production n’est pas trivial

Ce que l’on voit moins, c’est que la mise en production de ces modèles à grande échelle demeure complexe. Les principaux goulets d’étranglement sont bien connus :

  • Limitations de mémoire : chaque token nécessite de charger dynamiquement les paramètres des experts sélectionnés dans la mémoire HBM, ce qui sollicite fortement la bande passante de chaque GPU.
  • Communication “all-to-all” : les experts répartis entre plusieurs GPU doivent échanger des informations en quelques millisecondes pour produire une réponse cohérente. Lorsque cette communication passe par un réseau généraliste, la latence explose.

Sur des plateformes comme le NVIDIA H200, pousser le parallélisme des experts au-delà de 8 GPU implique de recourir à des interconnexions externes, qui introduisent plus de latence et réduisent la performance globale. C’est ici que NVIDIA propose la solution GB200 NVL72.

GB200 NVL72 : 72 GPU Blackwell d’un seul tenant

GB200 NVL72 est un système rack à grande échelle regroupant 72 GPU NVIDIA Blackwell, connectées via un NVLink Switch dans un seul domaine d’interconnexion haut débit, offrant 1,4 exaflops de puissance IA et 30 TB de mémoire partagée à très haute vitesse.

Concrètement, pour les modèles MoE, cela signifie :

  • Moins d’experts par GPU : en répartissant les experts sur 72 GPU, la pression sur la mémoire de chaque accélérateur diminue fortement, permettant de gérer plus d’utilisateurs simultanés et de traiter des contextes plus longs.
  • Une communication ultra-rapide entre experts : l’interconnexion NVLink offre un tissu jusqu’à 130 TB/s à l’intérieur du rack, permettant aux échanges all-to-all de se faire sans avoir recours à des réseaux externes à latence plus élevée.
  • Calcul intégré dans le switch : le NVLink Switch peut réaliser des opérations de réduction et d’agrégation directement en réseau, accélérant la fusion des résultats provenant des différents experts.

Sur cette plateforme matérielle, NVIDIA ajoute une couche d’optimisation logicielle complète : le format NVFP4 pour préserver la précision à moindre coût, l’orchestrateur NVIDIA Dynamo pour séparer phases de prefill et decode, et un support natif dans les frameworks d’inférence tels que TensorRT-LLM, SGLang ou vLLM, intégrant ces techniques spécifiques aux MoE.

Un rendement x10 pour des modèles de référence comme Kimi K2 et Mistral Large 3

L’impact est concret. Selon les données de NVIDIA et d’analyses indépendantes, des modèles MoE comme Kimi K2 Thinking, DeepSeek-R1 ou Mistral Large 3 atteignent jusqu’à 10 fois plus de performance lorsqu’ils tournent sur GB200 NVL72 comparé aux systèmes H200 de génération précédente.

Ce saut de 10x ne se limite pas au laboratoire : il se traduit par :

  • Un débit de tokens par seconde considérablement accru pour une même consommation électrique.
  • Une réduction du coût par token, améliorant directement la rentabilité des services IA.
  • Une latence plus faible, essentielle pour les applications interactives, assistants conversationnels ou agents multipliant les appels au modèle.

Les fournisseurs de services IA et les clouds spécialisés comme CoreWeave, Together AI ou de grandes entreprises technologiques commencent à adopter cette architecture à l’échelle du rack GB200 NVL72, pour des cas d’usage allant de la traduction avancée (ex : DeepL) à des plateformes d’agents intelligents pour entreprises.

Au-delà du MoE : vers des usines d’IA à experts partagés

Si GB200 NVL72 est présenté comme la référence pour le MoE, cette approche s’inscrit dans la tendance générale de l’IA moderne :

  • Les modèles multimodaux combinent plusieurs experts pour traiter texte, vision, audio ou vidéo, n’activant que ceux nécessaires selon la tâche.
  • Les systèmes agentiques orchestrent plusieurs agents spécialisés (planification, recherche, outils externes, mémoire long terme), collaborant pour résoudre des problématiques complexes.

Dans ces deux cas, la philosophie reste la même : disposer d’un ensemble de capacités pointues et acheminer chaque partie du problème vers l’expert approprié.

Avec des infrastructures à l’échelle d’un rack, comme GB200 NVL72, les fournisseurs peuvent aller plus loin : bâtir de véritables usines d’IA, où un vaste pool d’experts partagés sert simultanément de nombreuses applications, maximisant l’utilisation du matériel et réduisant le coût unitaire de chaque tâche d’IA.

Questions fréquentes sur MoE et le système NVIDIA GB200 NVL72

En quoi un modèle Mixture of Experts diffère-t-il d’un modèle dense classique ?
Un modèle dense active tous ses paramètres pour chaque token. Un MoE, lui, divise en plusieurs experts et n’en active que quelques-uns par token, selon un routeur. Ainsi, il combine une capacité gigantesque (des centaines de milliards voire des trillions de paramètres) avec un coût par token nettement réduit.

Quels sont les avantages précis du GB200 NVL72 face aux générations précédentes comme le H200 ?
Le GB200 NVL72 assemble 72 GPU Blackwell via NVLink dans un seul domaine, offrant 1,4 exaflops et 30 TB de mémoire commune. Cela élimine les limites classiques des MoE (mémoire et communication), permet de répartir les experts sur plusieurs GPU sans pénalité de latence et délivre jusqu’à 10 fois plus de performance en inférence pour des modèles tels que Kimi K2 Thinking ou Mistral Large 3.

Quels types d’organisations bénéficieront le plus de cette combinaison MoE + GB200 NVL72 ?
Principalement, les grands fournisseurs de cloud, plateformes IA en tant que service, entreprises formant et déployant des modèles de pointe, ou encore celles développant des assistants avancés et agents autonomes. Pour ces acteurs, réduire le coût par requête et la consommation énergétique est essentiel pour la viabilité économique des modèles de nouvelle génération.

Est-ce que le MoE remplacera complètement les modèles denses ?
Pas forcément. Les modèles denses restent pertinents pour des environnements avec peu de mémoire, sur dispositifs edge ou pour des tâches très spécifiques. Cependant, pour les grands modèles de pointe nécessitant de vastes capacités de raisonnement et un déploiement à grande échelle, l’approche MoE combinée à des infrastructures comme GB200 NVL72 s’impose comme la solution la plus efficace et évolutive.

Sources : blogs.nvidia et Noticias inteligencia artificial

le dernier