NVIDIA veut transformer les centres de données en usines d’IA

NVIDIA veut transformer les centres de données en usines d'IA

NVIDIA redéfinit la façon dont l’industrie parle des centres de données. Fini le vocabulaire des GPU, serveurs ou clusters accélérés : l’entreprise préfère désormais le terme usines d’IA, des installations pensées pour produire des tokens en continu, à la manière d’une usine qui génère de l’électricité ou de l’acier. La métaphore est commerciale, mais elle reflète une réalité concrète : l’IA ne peut plus être traitée comme une simple couche logicielle tournant sur de l’infrastructure générique.

Selon NVIDIA, une usine d’IA convertit l’énergie en intelligence. La « pièce » de production n’est plus physique, c’est le token généré par un modèle quand il raisonne, répond, écrit du code, coordonne des agents ou exécute une tâche. Les indicateurs clés ressemblent désormais davantage à ceux de l’industrie lourde qu’à ceux d’une application SaaS : tokens par seconde, tokens par watt, coût par token, taux d’utilisation de l’infrastructure, disponibilité.

L’inférence agentive : une charge bien différente d’une simple requête

L’IA générative a commencé, pour beaucoup d’utilisateurs, avec une zone de texte. On posait une question, le modèle répondait, le cycle s’arrêtait là. Avec l’IA agentive, ce schéma est dépassé. Un agent peut planifier, chercher de l’information, invoquer des outils, analyser des documents, rédiger du code, interroger des bases de données, créer des sous-agents et prendre des décisions en chaîne.

Cela rend le processus d’inférence plus long, plus interactif et plus complexe à orchestrer. Une GPU puissante en attente d’une requête ne suffit plus. Il faut coordonner mémoire, stockage, réseau, CPU, logiciels, files d’attente et services externes, pour que chaque étape s’enchaîne sans délai.

NVIDIA y voit un problème de pile technologique complète. Les modèles ont besoin d’un calcul accéléré, mais aussi d’une mémoire rapide, d’un stockage pour le contexte, d’un réseau à faible latence pour la coordination des services, et de logiciels capables de maintenir une haute utilisation du système. Quand une couche prend du retard, le coût par token grimpe et l’expérience utilisateur se dégrade.

MesureCe qu’elle reflète dans une usine d’IA
Tokens par secondeCapacité à produire réponses et actions
Tokens par wattEfficacité énergétique du système
Coût par tokenViabilité économique de l’inférence à grande échelle
UtilisationNiveau d’optimisation de GPU, CPU, mémoire et réseau
DisponibilitéContinuité de la production d’IA
LatenceTemps de réponse dans les agents et applications interactives

Cette approche a des implications concrètes pour toute entreprise qui déploie sérieusement l’IA. La question n’est plus seulement de choisir un modèle. Il faut décider où l’exécuter, combien coûte chaque interaction, quelle latence est acceptable, comment préserver le contexte, quelles données récupérer, et ce que suppose réellement l’infrastructure en consommation d’énergie.

Blackwell Ultra et GB300 NVL72 : les chiffres de la nouvelle économie du token

NVIDIA présente ses systèmes Blackwell Ultra et GB300 NVL72 comme la réponse directe à cette économie. Selon la société, ces systèmes produisent jusqu’à 50 fois plus de tokens par mégawatt qu’Hopper, tout en réduisant le coût par token par un facteur 35. Des chiffres fournis par NVIDIA, à replacer dans leur cadre comparatif, mais la tendance est claire : produire plus d’intelligence avec moins d’énergie.

NVIDIA met aussi en avant NVIDIA Dynamo, un framework pour orchestrer des inférences à long contexte et des volumes importants de requêtes. Dans une usine d’IA, le logiciel est aussi déterminant que le matériel : il faut router les requêtes, gérer la mémoire, équilibrer latence et débit, et éviter que le matériel coûteux reste en attente inutilement.

Fait marquantChiffre communiquéImportance
GB300 NVL72 vs Hopper50× plus de tokens par mégawattProduction d’IA par unité d’énergie
GB300 NVL72 vs Hopper35× moins de coût par tokenImpact direct sur la rentabilité de l’inférence
Vera Rubin avec LPXJusqu’à 35× de performance par wattProchaine génération pour raisonnement et IA agentive
Vera CPU88 cœurs OlympusGestion des agents, runtimes et orchestration
Bande passante mémoire VeraJusqu’à 1,2 To/sSoutenir des charges massives et accès mémoire rapides
Vera vs Grace (Phoronix)1,6× de performance géométrique moyenneAvancée générationnelle pour CPU de centres de données
Vera vs x86 128 cœurs (NVIDIA)1,5× de performance globaleARM comme concurrent sérieux dans le monde IA
Compilation Linux sur Vera20 secondesExemple concret des performances en développement

La prochaine étape est Vera Rubin. NVIDIA affirme que cette plateforme, couplée à LPX, vise à relancer le rapport performance/watt dans les tâches de raisonnement et d’IA agentive. Le message est sans ambiguïté : l’objectif n’est plus de choisir la bonne GPU, mais d’opérer la fabrique d’IA la plus efficiente en coût par token.

Cette stratégie protège aussi NVIDIA face à une concurrence de plus en plus spécialisée : ASICs, puces d’inférence, LPUs, TPUs et autres accélérateurs sur mesure qui ciblent des segments précis du marché avec de meilleurs ratios coût/latence. NVIDIA riposte avec une offre intégrale : pas seulement le composant, mais une architecture couvrant l’ensemble du système.

Vera CPU : la remise en avant du processeur dans une usine d’IA

Une usine d’IA ne se résume pas à la GPU. NVIDIA pousse aussi Vera, sa nouvelle CPU pour centres de données, basée sur ses cœurs Olympus et l’architecture Armv9.2. Le message technique a du poids : les agents ne font pas que des opérations matricielles accélérées. Ils compilent du code, lancent des environnements isolés, traitent des données, gèrent des runtimes, orchestrent des outils, exécutent Python ou Java, et interrogent des bases de données.

D’après les premiers résultats publiés par Phoronix et relayés par NVIDIA, Vera embarque 88 cœurs Olympus, 176 threads, jusqu’à 1,2 To/s de bande passante mémoire LPDDR5X, 164 Mo de cache L3 unifié, support PCIe Gen 6 et CXL 3.1. La puce testée affichait une consommation maximale de 450 W, avec la mémoire LPDDR5X à environ 50 W.

Caractéristique de NVIDIA VeraDonnées techniques
ArchitectureArmv9.2
Nombre de cœurs88 Olympus
Threads176
Bande passante mémoireJusqu’à 1,2 To/s
Cache L2 par cœur2 Mo
Cache L3 unifié164 Mo
ConnectivitéPCIe Gen 6 et CXL 3.1
TDP testé450 W
Consommation mémoireEnviron 50 W
DisponibilitéSeconde moitié 2026, via partenaires

La bande passante mémoire est au cœur des enjeux. Les charges agentiques ne se jouent pas uniquement sur le nombre de cœurs : elles exigent un traitement parallèle avec des accès mémoire rapides et des latences stables. NVIDIA indique que Vera maintient 90 % de son débit maximal lors du test STREAM TRIAD, avec un débit par cœur plus de 4 fois supérieur aux CPU x86 classiques. Une réponse directe à l’un des goulots d’étranglement historiques des centres de données : déplacer rapidement les données sans exploser la consommation.

Concevoir avant de construire : l’approche co-conception de NVIDIA

Une usine d’IA ne s’improvise pas. Contrairement à un centre de données traditionnel où l’on pouvait ajouter des serveurs ou du stockage au fil de l’eau, l’IA exige un design initial intégrant puissance, refroidissement liquide, interconnexions, répartition des charges et alimentation électrique en système cohérent.

NVIDIA prône une co-conception poussée : matériel, réseau, mémoire, stockage, logiciel, énergie et refroidissement pensés dès le départ comme une seule entité. L’entreprise s’appuie sur ses modèles de référence DSX et sur les jumeaux numériques via Omniverse DSX Blueprint pour simuler installations, équipements, refroidissement et opérations avant le premier mégawatt déployé.

Ce niveau de préparation est indispensable pour des projets de plusieurs centaines de mégawatts, voire de gigawatts. Une erreur de conception électrique ou thermique peut brider la croissance d’une installation pendant des années. Dans une économie du token, chaque gaspillage d’énergie, d’espace ou de refroidissement fait mécaniquement monter le coût de production de l’intelligence.

Éléments de l’usine d’IAPourquoi c’est important
Calcul accéléréExécution de modèles, raisonnement et inférence
CPUCoordination des agents, runtimes, processus et services
RéseauConnexion des milliers d’accélérateurs et systèmes
MémoireAlimentation des modèles, contextes longs, charges parallèles
StockageDonnées, vecteurs, checkpoints et états
LogicielOrchestration des charges et maximisation de l’utilisation
ÉnergieFacteur limitant la taille économique du déploiement
RefroidissementDensité élevée sans dégradation thermique

NVIDIA veut aussi étendre ce modèle au-delà des hyperscalers. Les collaborations avec Cisco, Dell, HPE, Lenovo et Supermicro visent à rapprocher l’infrastructure IA des centres d’entreprise. L’objectif : qu’une usine d’IA puisse démarrer sur un cas métier précis et évoluer vers des usages plus larges.

Construire ou louer : comment les entreprises vont produire leur intelligence

La vision la plus ambitieuse de NVIDIA est que toute organisation devra tôt ou tard construire ou louer une usine d’IA. Toutes ne le feront pas avec une infrastructure propre : beaucoup passeront par le cloud, les neoclouds, des fournisseurs de colocation ou des plateformes managées. Ce qui comptera, c’est de maîtriser coûts, performances, sécurité et disponibilité.

Les cas d’usage sont concrets. Une institution financière peut déployer des agents pour l’analyse de risque, la conformité, le support interne et le développement logiciel. Un laboratoire pharmaceutique peut s’appuyer sur l’IA pour la simulation et la découverte moléculaire. Une industrie peut utiliser les agents pour la maintenance, la planification ou la robotique. Dans tous ces cas, la question centrale reste la même : comment produire de l’intelligence de façon sûre, efficace et continue ?

La dimension énergétique est peut-être l’angle le moins évident de cette vision. Si une usine d’IA convertit l’électricité en tokens, l’énergie devient la matière première de l’IA. Il faut alors analyser le coût, l’origine de l’électricité, l’efficience thermique et la disponibilité électrique avec autant de rigueur que les licences logicielles. La course aux investissements en infrastructure IA, avec des acteurs comme ByteDance engageant 70 milliards de dollars pour contrôler leur propre chaîne, montre que cette compétition est aussi stratégique que technologique.

La prochaine étape de l’IA ne sera pas dictée uniquement par des modèles plus performants, mais aussi par ceux qui pourront les servir au moindre coût par token, avec une consommation optimale et une disponibilité maximale. NVIDIA veut que cette compétition se joue sur une architecture qu’elle contrôle de bout en bout : GPU, CPU, réseau, logiciel, partenaires et conception des centres.

La promesse du cloud était de rendre l’infrastructure invisible. L’IA la ramène à la surface. Derrière chaque agent qui raisonne, chaque assistant qui automatise, chaque modèle qui répond, il y a une installation physique qui produit des tokens sans relâche.

Questions fréquemment posées

Qu’est-ce que NVIDIA entend par « usine d’IA » ?

Une infrastructure conçue pour produire des tokens en continu : calcul accéléré, CPU, réseau, mémoire, stockage, logiciel, énergie et refroidissement coordonnés comme un système unique. L’analogie avec l’usine industrielle souligne que la production d’intelligence a ses propres indicateurs (tokens/s, tokens/watt, coût/token) et ses propres contraintes physiques.

Pourquoi le coût par token est-il devenu l’indicateur central ?

Parce qu’il détermine la rentabilité à grande échelle. Un coût par token élevé rend inviable l’usage massif de modèles et d’agents dans des processus continus. Les gains annoncés par NVIDIA sur Blackwell Ultra (35× moins cher que Hopper) illustrent à quel point cette métrique pilote les décisions d’investissement dans les grandes infrastructures.

Quel est le rôle spécifique de la CPU Vera dans cette architecture ?

Vera gère les tâches que la GPU ne couvre pas : compilation de code, lancement d’environnements isolés, gestion des runtimes, orchestration d’outils, requêtes aux bases de données et maintien de services en parallèle. Avec 88 cœurs Olympus et 1,2 To/s de bande passante mémoire, elle cible les goulots d’étranglement CPU des charges agentiques à grande échelle.

Toutes les entreprises doivent-elles construire leur propre usine d’IA ?

Non. La plupart loueront de la capacité via le cloud, les neoclouds ou des fournisseurs spécialisés. Ce qui compte, c’est de maîtriser coûts, performance, sécurité et disponibilité, quelle que soit la forme d’accès à l’infrastructure. Les entreprises avec des exigences de souveraineté ou de confidentialité des données seront plus susceptibles d’investir dans une infrastructure propre.

Comment NVIDIA se protège-t-elle face aux ASICs et accélérateurs spécialisés ?

En proposant une offre intégrale plutôt qu’un composant. Face aux puces d’inférence, LPUs, TPUs et ASICs sur mesure qui ciblent des segments précis, NVIDIA mise sur l’intégration verticale : GPU, CPU Vera, réseau NVLink, logiciel Dynamo, jumeaux numériques et partenariats OEM. Le pari est que la valeur de l’architecture complète dépasse la performance d’une puce isolée.

Sources : Phoronix et blogs NVIDIA

le dernier