NVIDIA continue de transformer les benchmarks MLPerf en démonstration de puissance. Lors de l’édition MLPerf Inference v6.0, l’entreprise affirme avoir obtenu les meilleurs résultats sur le plus grand nombre de tests, en s’appuyant sur Blackwell Ultra et le système GB300 NVL72. Les chiffres sont vertigineux : 2,49 millions de tokens par seconde avec DeepSeek-R1 en mode offline, 1,55 million en serveur. L’inférence ne se mesure plus en teraflops, mais en tokens produits et en coût par requête.
Contexte : MLPerf v6.0, la mise à jour la plus significative
MLCommons présente v6.0 comme la mise à jour la plus importante du benchmark d’inférence, avec cinq des onze tests nouveaux ou mis à jour. Parmi les nouveautés : un benchmark basé sur GPT-OSS 120B, une extension de DeepSeek-R1 en scénario interactif, DLRMv3 pour la recommandation, le premier test de texte vers vidéo et un benchmark vision-langage. NVIDIA affirme être la seule plateforme à avoir soumis des résultats pour tous ces nouveaux scénarios.
Précision importante : MLPerf est un benchmark standardisé et auditable, pas une simulation exacte de toutes les charges de production. Sa valeur réside dans la reproductibilité, mais les chiffres ne traduisent pas automatiquement le comportement d’un service API réel ou d’un environnement mêlant modèles et utilisateurs.
Le logiciel fait la différence, pas seulement le matériel
L’aspect le plus révélateur n’est pas le processeur lui-même, mais les optimisations logicielles. Le même GB300 NVL72, présenté six mois plus tôt, s’est amélioré de 2,77 fois sur DeepSeek-R1 en scénario serveur grâce à TensorRT-LLM et Dynamo : de 2 907 à 8 064 tokens par seconde par GPU. Llama 3.1 405B a également progressé de 52 % sur la même infrastructure.
NVIDIA renforce ainsi sa stratégie : l’avantage concurrentiel ne repose plus seulement sur la vente de GPU, mais sur la maîtrise d’une pile complète d’inférence. Cette approche s’inscrit dans la continuité de la plateforme Vera Rubin, qui vise à renforcer l’ensemble de la chaîne d’approvisionnement IA de NVIDIA.
L’inférence à l’échelle industrielle
MLPerf v6.0 marque un record de systèmes multi-nœuds, avec une augmentation de 30 % par rapport à v5.1. Le plus grand système soumis comportait 72 nœuds et 288 accélérateurs, quadruplant la taille du précédent record. NVIDIA a présenté quatre GB300 NVL72 reliés via Quantum-X800 InfiniBand pour atteindre ses résultats records.
Le message est clair : NVIDIA veut que le marché évolue des GPU isolés vers des usines d’IA, des infrastructures complètes où la valeur réside dans la capacité à produire une inférence rentable à grande échelle. Parallèlement, des acteurs comme Akamai cherchent à amener l’inférence à la périphérie avec 4 400 emplacements, montrant que l’inférence se distribue aussi en dehors des centres de données.
Écosystème et compétition
NVIDIA revendique 291 victoires MLPerf depuis 2018, neuf fois plus que l’ensemble de ses concurrents. Quatorze partenaires ont présenté des résultats sur sa plateforme : ASUS, Cisco, CoreWeave, Dell, Google Cloud, HPE, Lenovo, Nebius, QCT, Red Hat et Supermicro. La compétition reste vive avec 24 organisations soumettant des résultats, dont AMD, Intel, Oracle et Google.
NVIDIA complète cette domination hardware par un écosystème logiciel en expansion, comme en témoigne le lancement de Nemotron 3 Super, son modèle ouvert pour agents IA. La société ne vend plus seulement des accélérateurs, mais une plateforme complète optimisée pour réduire le coût par inférence.
Questions fréquentes
Qu’est-ce que MLPerf Inference v6.0 ?
La dernière version du benchmark d’inférence de MLCommons, suite standardisée qui compare la performance des systèmes d’IA sur des charges représentatives. Référence industrielle pour l’évaluation des plateformes.
Qu’a réalisé NVIDIA lors de cette édition ?
NVIDIA affirme avoir été la seule plateforme à soumettre des résultats pour tous les nouveaux benchmarks, avec les meilleurs scores sur chacun via Blackwell Ultra et GB300 NVL72.
NVIDIA est-elle automatiquement la meilleure option pour tout déploiement IA ?
Pas nécessairement. MLPerf est une comparaison précieuse mais ne remplace pas l’évaluation des coûts, logiciels, disponibilité, consommation et besoins spécifiques de chaque organisation.
Quelle est la nouveauté technique la plus marquante ?
L’amélioration de 2,77x sur le même matériel grâce aux optimisations logicielles TensorRT-LLM et Dynamo, démontrant que l’inférence dépend désormais autant du stack logiciel que du hardware.