NVIDIA domine le MLPerf Inference v6.0 et accélère la course à l’IA

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

NVIDIA continue de transformer les benchmarks MLPerf en une démonstration de puissance. Lors de la nouvelle édition MLPerf Inference v6.0, l’entreprise affirme avoir obtenu les meilleurs résultats sur le plus grand nombre de tests et de scénarios, en s’appuyant sur sa plateforme Blackwell Ultra, le système GB300 NVL72, ainsi qu’une combinaison très raffinée de matériel, d’interconnexion et de logiciels. Cette publication intervient à un moment où l’inférence ne se mesure plus uniquement en teraflops ou en spécifications de puces, mais en quelque chose de beaucoup plus directement lié aux affaires : combien de tokens une infrastructure peut produire et à quel coût.

Ce cycle revêt une importance particulière, dépassant le simple titre habituel de “record de performance”. MLCommons, le consortium responsable de MLPerf, présente v6.0 comme la mise à jour la plus significative à ce jour du benchmark d’inférence, avec cinq des onze nouveaux ou mis à jour tests en centre de données, offrant un ensemble plus représentatif du déploiement réel de charges d’IA. Parmi les nouveautés figurent un benchmark basé sur GPT-OSS 120B, une extension de DeepSeek-R1 avec un scénario interactif, un nouveau test de recommandation DLRMv3, la première évaluation du texte vers vidéo et un benchmark de modèles vision-langage.

NVIDIA affirme être la seule plateforme à avoir présenté des résultats pour tous ces nouveaux modèles et scénarios, tout en ayant obtenu le taux de traitement le plus élevé dans chacun d’eux. Sur son blog technique, la société révèle des chiffres impressionnants : 2.494.310 tokens par seconde avec DeepSeek-R1 en mode offline, 1.555.110 tokens par seconde en serveur pour ce même modèle, 1.046.150 tokens par seconde pour GPT-OSS-120B en offline, 1.096.770 tokens par seconde en serveur, 79 échantillons par seconde pour Qwen3-VL, et 104.637 échantillons par seconde pour DLRMv3. En ce qui concerne WAN 2.2, le modèle texte vers vidéo, la métrique la plus visible est la latence en flux unique, avec 21 secondes par requête.

Cependant, il convient d’introduire une précaution importante. MLPerf n’est pas une simulation exacte de toutes les charges de production, mais un benchmark standardisé et auditable conçu pour comparer des plateformes dans des conditions définies. Sa valeur réside précisément dans cette reproductibilité, mais cela ne signifie pas que chaque chiffre traduit fidèlement le comportement d’une application commerciale spécifique, d’un service API réel ou d’un environnement mêlant modèles, utilisateurs et limitations opérationnelles. MLCommons insiste d’ailleurs sur le fait que ces résultats constituent une base rigoureuse pour la comparaison des systèmes, et non une prédiction automatique de performances universelles.

Blackwell Ultra ne domine pas seulement par le matériel

Un des aspects les plus intéressants de l’annonce de NVIDIA ne réside pas dans le processeur lui-même, mais dans le logiciel. La société affirme que le même système GB300 NVL72, présenté il y a seulement six mois, s’est considérablement amélioré dans plusieurs tests grâce à des optimisations de TensorRT-LLM et du cadre distribué Dynamo. Selon NVIDIA, la performance par GPU dans DeepSeek-R1, en scénario serveur, est passée de 2 907 tokens par seconde par GPU sous MLPerf v5.1 à 8 064 tokens par seconde par GPU en v6.0, soit une amélioration de 2,77 fois. Durant cette période, Llama 3.1 405B a également progressé de 52 % en environnement serveur, avec la même infrastructure.

Ce message est crucial car il renforce la stratégie de NVIDIA : l’avantage concurrentiel ne repose plus seulement sur la vente de GPU, mais sur la maîtrise d’une pile complète d’inférence. La société attribue ces progrès à des kernel plus rapides, des fusions de kernel, un meilleur équilibre du Attention Data Parallel,disaggregated serving, Wide Expert Parallel, Multi-Token Prediction et KV-aware routing. En termes simples, la course n’est plus uniquement entre silicium, mais entre une intégration très fine entre modèle, runtime, mémoire, réseau et techniques de service.

De plus, NVIDIA souhaite souligner le rôle de son écosystème. Selon la société, cette ronde comptabilise 14 partenaires ayant présenté des résultats sur leur plateforme, ce qui constitue le plus grand nombre de collaborations pour cette édition. Parmi eux figurent ASUS, Cisco, CoreWeave, Dell, Google Cloud, HPE, Lenovo, Nebius, QCT, Red Hat et Supermicro. Ce chiffre n’est pas anodin : il indique qu’une grande partie du marché continue de considérer NVIDIA comme l’environnement le plus fiable pour bâtir et affiner une infrastructure IA de grande échelle.

L’inférence à l’échelle de la fabrication est désormais une réalité

Un autre aspect notable de MLPerf v6.0 concerne la croissance des systèmes multi-nœuds. MLCommons indique que cette édition a atteint un nouveau record en termes de systèmes à grande échelle, avec une augmentation de 30 % par rapport à v5.1. Par ailleurs, 10 % de l’ensemble des systèmes soumis dépassaient dix nœuds, contre seulement 2 % lors de la précédente édition. Le système le plus grand présenté comportait 72 nœuds et 288 accélérateurs, multipliant par quatre la taille du plus grand système de la version précédente.

NVIDIA s’insère parfaitement dans cette tendance. Pour DeepSeek-R1, elle a présenté des résultats avec quatre systèmes GB300 NVL72 reliés via Quantum-X800 InfiniBand, atteignant ces 2,49 millions de tokens par seconde en mode offline et 1,55 million en environnement serveur. En pratique, le message est clair : l’entreprise veut que le marché cesse de penser uniquement en termes de GPU isolés, pour évoluer vers des usines d’IA, c’est-à-dire des infrastructures complètes où la valeur n’est pas seulement dans le processeur, mais dans la capacité à produire une inférence rentable à grande échelle.

Cette vision explique également pourquoi NVIDIA insiste sur différents types de modèles dans la même plateforme : raisonnements avancés, vision-langage, recommandations génératives et vidéo. La société souhaite démontrer que Blackwell Ultra n’est pas uniquement adapté aux LLM purs, mais constitue une plateforme polyvalente pour différents cas d’usage d’inférence. Sur le plan commercial, cela implique qu’une même infrastructure peut gérer plusieurs charges de travail et profils clients, augmentant ainsi son amortissement potentiel.

Une victoire majeure, mais pas définitive

La situation générale favorise nettement NVIDIA. La société revendique déjà 291 victoires dans les benchmarks MLPerf d’entraînement et d’inférence depuis 2018, soit près de neuf fois plus que l’ensemble de ses concurrents. Cependant, l’aspect peut-être le plus intéressant n’est pas ce chiffre en soi, mais le contexte concurrentiel. MLPerf v6.0 a reçu des soumissions de 24 organisations, dont AMD, Intel, Oracle, Google, Dell, Lenovo, HPE, Supermicro, et autres acteurs de l’écosystème. La compétition est donc bien présente et continue de se mesurer dans le même terrain.

En définitive, NVIDIA ressort renforcée pour deux raisons. D’abord parce qu’elle conserve son leadership dans le benchmark le plus influent du secteur. Ensuite parce qu’elle lie ce leadership à une stratégie claire pour investisseurs, hyperscalers et opérateurs de datacenters : elle ne vend pas seulement des accélérateurs, mais une plateforme complète optimisée pour produire des tokens, réduire le coût par inférence et continuer à s’améliorer via le logiciel, même sur le même matériel. Dans la dynamique actuelle de l’IA, cet argument pèse presque autant que les chiffres bruts de performances.

Questions fréquentes

Qu’est-ce que MLPerf Inference v6.0 et pourquoi est-ce si important ?
Il s’agit de la dernière version du benchmark d’inférence de MLCommons, une suite standardisée et reproductible qui compare la performance des systèmes d’IA sur des charges représentatives. Son importance réside dans le fait qu’elle est devenue une référence dans l’industrie pour l’évaluation des plateformes d’inférence dans des conditions comparables.

Qu’a exactement réalisé NVIDIA lors de cette édition ?
NVIDIA affirme avoir été la seule plateforme à présenter des résultats pour tous les nouveaux benchmarks et scénarios introduits en v6.0, tout en ayant obtenu le meilleur rendement avec ses systèmes Blackwell Ultra et GB300 NVL72.

Cela signifie-t-il que NVIDIA est automatiquement la meilleure option pour tout déploiement d’IA ?
Pas nécessairement. MLPerf constitue une comparaison précieux, mais elle ne remplace pas une évaluation concrète des coûts, logiciels, disponibilité, consommation, intégration et besoins spécifiques à chaque organisation.

Quelle est la nouveauté technique la plus marquante de cette édition ?
Sans doute l’association de benchmarks plus réalistes avec l’amélioration des performances rendue possible par NVIDIA via des logiciels comme TensorRT-LLM et Dynamo, ce qui renforce l’idée que l’inférence dépend désormais autant du stack logiciel que du hardware.

Source : developer.nvidia