NVIDIA GB300 accélère les performances de l’IA agentique par rapport à Hopper

NVIDIA Rubin : six puces, un « superordinateur » et la course à la réduction du coût du jeton à l’ère de l’IA de raisonnement

L’intelligence artificielle agentique redéfinit la manière dont nous mesurons la performance des centres de données. Il ne suffit plus de connaître le nombre de tokens par seconde qu’un modèle peut produire lors d’une requête isolée. Les agents modernes travaillent plus longtemps, enchaînent plusieurs étapes, invoquent des outils, maintiennent un contexte, éditent du code, exécutent des tests et raisonnent continuellement avec les informations qu’ils reçoivent. Cette nouvelle utilisation modifie radicalement la pression exercée sur l’infrastructure.

NVIDIA a publié ses premiers résultats avec AA-AgentPerf, un nouveau benchmark d’Analyse Artificielle conçu pour mesurer combien d’agents IA une plateforme d’inférence peut supporter dans des scénarios réalistes. Les résultats favorisent nettement le système Blackwell Ultra : la plateforme NVIDIA GB300 NVL72 atteint jusqu’à 20 fois plus de capacité par mégawatt qu’une plateforme HGX H200 basée sur Hopper, en charge d’agents de programmation.

Ce chiffre illustre bien l’amélioration. Selon les données publiées, le GB300 NVL72 supporte 61 400 agents simultanés par MW contre seulement 2 600 pour le H200. En capacité par GPU, la différence est également significative : 57,5 agents concurrents par accélérateur contre 1,4 pour la génération précédente. Ces résultats ont été obtenus lors de tests avec DeepSeek V4 Pro, un modèle Mixture-of-Experts utilisé pour représenter les charges de travail modernes d’agents.

Ce que mesure AA-AgentPerf et pourquoi c’est important

AA-AgentPerf ne cherche pas à évaluer une simple conversation avec un chatbot. Son objectif est d’analyser le comportement de l’infrastructure lorsque de nombreux agents opèrent simultanément sur des tâches longues et variables, semblables à celles rencontrées dans des environnements de développement assisté par IA.

Le benchmark utilise des trajectoires réelles d’agents de programmation. Ces trajectoires incluent des sessions multi-tours, du raisonnement intercalé, des appels à des outils, de l’édition de code, avec des longueurs de contexte très variables. Selon Artificial Analysis, les séquences d’entrée peuvent dépasser les 100 000 tokens, avec une moyenne d’environ 27 000 tokens dans l’échantillon analysé.

C’est essentiel car les charges agéntiques sollicitent différentes parties du système. Un agent ne se limite pas à générer du texte. Il lit le contexte, attend les résultats d’outils, reprend la session, réutilise le cache KV, alterne entre remplissage et décodage, et maintient plusieurs requêtes actives sur une longue période. En production, cette complexité impacte le planificateur, la mémoire, l’interconnexion entre GPU et la capacité à maintenir une faible latence.

Métrique d’AA-AgentPerf Ce qu’elle indique
TTFT Temps jusqu’à recevoir le premier token
Vitesse de sortie Tokens par seconde après démarrage de la génération
Débit du système Tokens par seconde avec agents multiples en parallèle
Agents simultanés par MW Capacité utile par consommation énergétique
Agents simultanés par GPU Capacité utile par accélérateur
NVIDIA GB300 accélère les performances de l'IA agentique par rapport à Hopper 1

La métrique la plus cruciale pour les opérateurs d’infrastructure est le nombre d’agents simultanés par mégawatt. Dans un centre de données dédié à l’IA, la consommation électrique devient aussi déterminante que le coût des GPU. Savoir combien d’agents une installation peut supporter par MW disponible permet d’évaluer la capacité, le coût opérationnel et le retour sur investissement du matériel.

GB300 NVL72 vs H200 : la progression de Blackwell Ultra

Les données d NVIDIA montrent une différence considérable entre GB300 NVL72 et HGX H200 dans la gestion de charges agéntiques de programmation. La comparaison ne se limite pas au seul rendement brute d’une GPU, mais à la capacité de la plateforme entière à soutenir des agents simultanés tout en respectant des objectifs de service.

Benchmark NVIDIA GB300 NVL72 NVIDIA H200
Agents simultanés par MW 61 400 2 600
Agents simultanés par GPU 57,5 1,4
Écart approximatif par MW Jusqu’à 20 fois supérieur Référence

Ce avantage ne s’explique pas par un seul composant. NVIDIA attribue ce résultat à la synergie entre le hardware, le software et l’interconnexion. Le GB300 NVL72 connecte 72 GPU via un domaine NVLink haute capacité, particulièrement utile pour des modèles MoE comme DeepSeek V4 Pro, où la répartition de l’exécution entre experts doit être coordonnée sans que la communication n’épuise le rendement.

Les optimisations pour l’inférence, telles que TensorRT LLM, SGLang ou vLLM, jouent aussi un rôle, tout comme les techniques pour distinguer le remplissage (prefilling) du décodage, optimiser l’utilisation du cache KV, et maintenir une forte utilisation des GPU lorsque le nombre de sessions actives augmente. Dans l’IA agentique, l’objectif n’est pas seulement de répondre rapidement, mais de soutenir des milliers d’agents vivants sans que la latence ou la vitesse ne dégringolent en dessous des niveaux fixés.

Ce changement de paradigme oblige les fournisseurs cloud, les hyperscalaires, les laboratoires IA et les entreprises déployant des agents à grande échelle à reconsidérer la conception. La question ne se limite plus à « quelle GPU est la plus rapide », mais s’oriente vers « combien d’agents utiles puis-je faire fonctionner avec mon énergie, mon espace et mon budget » ? La performance par MW devient alors une métrique stratégique.

Centres de données dédiés aux agents, pas seulement aux modèles

L’expansion des agents IA transforme l’infrastructure en une usine de processus longs. Un assistant de programmation peut recevoir une incident, inspecter des fichiers, proposer des modifications, exécuter des tests, corriger des erreurs et répéter le cycle plusieurs fois. Chaque étape implique de nouvelles requêtes au modèle, avec maintien du contexte sur de longues périodes.

Ce contexte exige une conception différente des centres de données. La mémoire, le réseau interne, la refroidissement, l’efficacité énergétique et le logiciel d’orchestration prennent une place essentielle, bien plus que dans les déploiements classiques d’inférence. Un système mal équilibré risque de disposer de GPU très puissants mais de fournir une mauvaise expérience si les goulets d’étranglement concernent la cache, l’interconnexion, le planificateur ou le stockage du contexte.

AA-AgentPerf vise précisément à représenter cette nouvelle réalité. Il ne remplace pas d’autres benchmarks d’inférence, mais ajoute une couche supplémentaire orientée vers l’usage attendu par de nombreuses entreprises dans les prochaines années. Si les agents évoluent vers des flottes de processus autonomes en parallèle, l’infrastructure doit être évaluée en termes de capacité soutenable, d’efficience et de prévisibilité.

Il faut toutefois faire preuve de prudence. Les résultats initiaux proviennent de configurations spécifiques, avec des modèles, des SLAs et des optimisations déterminés. Toutes les charges d’entreprise ne se comporteront pas de la même façon. Un agent de programmation ne possède pas le même profil qu’un agent financier, juridique, de service client ou de recherche scientifique. Néanmoins, le benchmark trace une direction claire : mesurer l’IA agentique requiert des essais prolongés, plus variables, et plus proches du contexte de production.

Vient déjà le prochain saut avec Rubin

Le timing de la publication n’est pas anodin. NVIDIA prépare déjà la transition vers Vera Rubin, sa nouvelle plateforme pour les très grandes installations d’IA. La société a annoncé que Vera Rubin sera déployée en production dans ce qu’elle appelle des « usines d’IA », avec une architecture combinant CPU Vera, GPU Rubin, NVLink 6, BlueField-4, Spectrum-6 et de nouveaux systèmes de réseau et stockage adaptés aux charges agentiques.

Selon NVIDIA, la GPU Rubin atteindra 50 PFLOPS de calcul NVFP4 pour l’inférence, tandis que NVLink 6 offrira 3,6 To/s de bande passante par GPU et 260 To/s par rack Vera Rubin NVL72. Vera est aussi présentée comme une CPU conçue pour les charges agentiques, axée sur la gestion des flux de données, l’efficacité et l’accélération des interactions où les appels aux outils et le contexte partagé deviennent essentiels.

NVIDIA promet que Vera Rubin pourra supporter jusqu’à 10 fois plus d’agents simultanés à l’échelle comparé à la génération Grace Blackwell. Si cette déclaration devra être confirmée par des déploiements réels et des benchmarks indépendants, elle reflète la tendance du marché : plus d’agents, plus de contexte, plus de concurrence et une pression accrue sur la consommation énergétique.

Pour le secteur cloud, cela signifie qu’il ne suffira plus d’accumuler de la puissance GPU. Il faudra concevoir des racks, réseaux, logiciels d’inférence, mesures de sécurité, isolation multi-locataires, stockage de contexte et gestion opérationnelle comme un système holistique. Les entreprises déployant massivement des agents ne rechercheront pas simplement « plus de puissance », mais une capacité utile par mégawatt, par rack et par euro investi.

Blackwell Ultra illustre déjà cette nouvelle logique. Hopper a été une étape clé dans l’expansion de l’IA générative, mais les charges agentiques élèvent la barre encore plus haut. Le GB300 NVL72 ne gagne pas uniquement par sa nouveauté, mais parce qu’il a été conçu pour maintenir un grand nombre d’agents en parallèle avec une meilleure efficacité.

L’IA agentique est encore à ses débuts en entreprise, mais son impact sur l’infrastructure est déjà tangible. Si elle devient une couche intégrée dans le développement logiciel, l’assistance client, l’analyse ou l’automatisation industrielle, les centres de données devront être dimensionnés pour accueillir des millions de processus intelligents et persistants. Le benchmark d’Artificial Analysis ne clôt pas la discussion, mais propose une métrique claire : combien d’agents concrets une plateforme peut-elle supporter tout en garantissant une expérience utilisateur optimale ?

Questions fréquentes

Qu’est-ce que AA-AgentPerf ?

Un benchmark d’Artificial Analysis qui évalue combien d’agents IA une plateforme d’inférence peut supporter dans des scénarios réalistes, en respectant des objectifs de vitesse de traitement et de délai jusqu’au premier token.

Quels résultats NVIDIA GB300 NVL72 a-t-elle obtenu ?

Elle atteint 61 400 agents simultanés par MW et 57,5 par GPU dans les tests publiés, contre 2 600 agents/MW et 1,4 par GPU pour la H200.

En quoi les charges agéntiques diffèrent-elles de l’inférence classique ?

Parce qu’un agent ne se limite pas à une requête. Il raisonne en plusieurs tours, appelle des outils, lit et modifie des fichiers, exécute des tests et maintient un contexte long. Cela requiert davantage de mémoire, une meilleure orchestration et une efficacité augmentée de l’ensemble du système.

Quel rôle pour NVIDIA Vera Rubin ?

Vera Rubin sera la prochaine plateforme de NVIDIA dédiée aux très grandes usines d’IA. Avec des GPU de 50 PFLOPS NVFP4, une CPU Vera, NVLink 6, et une architecture conçue pour optimiser le traitement des agents, elle vise à supporter bien plus d’agents simultanés à l’échelle.

Source : Nvidia

le dernier