NVIDIA cherche à transformer radicalement le langage de toute l’industrie des centres de données. Elle ne se limite plus à parler de GPU, serveurs ou clusters accélérés, mais évoque désormais les « usines d’IA » : des installations conçues pour produire en continu des tokens, à l’image d’une usine qui génère de l’électricité, de l’acier ou des composants. Bien que cette métaphore soit commerciale, elle traduit une évolution concrète : l’intelligence artificielle ne peut plus être traitée comme une simple couche logicielle fonctionnant sur une infrastructure générique.
Selon NVIDIA, une usine d’IA transforme l’énergie en intelligence. La « pièce » de production n’est plus une pièce physique, mais le token généré par un modèle lorsqu’il raisonne, répond, écrit du code, coordonne des agents ou exécute une tâche. Ainsi, les indicateurs clés commencent à ressembler davantage à ceux de l’industrie lourde qu’à ceux d’une application SaaS : tokens par seconde, tokens par watt, coût par token, taux d’utilisation de l’infrastructure et disponibilité.
L’inférence ne se limite plus à une simple requête isolée
La grande évolution concerne la nature de la charge de travail. Pour beaucoup d’utilisateurs, l’IA générative commençait avec une simple zone de texte : on saisissait une question, le modèle répondait, et le cycle s’arrêtait là. Avec l’agento-IA, ce schéma est dépassé. Un agent peut désormais planifier, rechercher, invoquer des outils, analyser des documents, rédiger du code, interroger des bases de données, créer des sous-agents et prendre des décisions enchaînées.
Cela rend le processus d’inférence plus long, plus interactif, et plus complexe à orchestrer. Il ne suffit plus de disposer d’une GPU puissante en attente d’une requête. Il faut coordonner mémoire, stockage, réseau, CPU, logiciels, files d’attente et services externes, pour que chaque étape s’enchaîne sans délai inutile.
NVIDIA voit cela comme un problème de pile technologique complète. Les modèles requièrent un calcul accéléré, mais aussi une mémoire rapide, un stockage pour le contexte, un réseau à faible latence pour la coordination des services, et des logiciels capables de maintenir une haute utilisation du système. Si une couche est en retard, le coût par token augmente, et l’expérience utilisateur se dégrade.
| Mesure | Ce qu’elle reflète dans une usine d’IA |
|---|---|
| Tokens par seconde | Capacité à produire réponses et actions |
| Tokens par watt | Efficacité énergétique du système |
| Coût par token | Viabilité économique de l’inférence à grande échelle |
| Utilisation | Niveau d’optimisation de la GPU, CPU, mémoire et réseau |
| Disponibilité | Continuité de la production d’IA |
| Latence | Temps de réponse dans les agents et applications interactives |
Cette approche a des implications pour toute entreprise désirant déployer sérieusement l’IA. La question n’est plus uniquement de choisir un modèle. Il faut également décider où l’exécuter, combien coûte chaque interaction, quelle latence est acceptable, comment préserver le contexte, quels données récupérer, et quelle consommation énergétique suppose l’infrastructure.
Les données qui façonnent la nouvelle économie du token
NVIDIA présente ses systèmes Blackwell Ultra et GB300 NVL72 comme des réponses à cette nouvelle économie. Selon la société, ces systèmes peuvent produire jusqu’à 50 fois plus de tokens par mégawatt qu’Hopper, tout en réduisant le coût par token de 35 fois. Ces chiffres, fournis par NVIDIA, doivent s’inscrire dans leur cadre comparatif, mais ils illustrent la tendance : produire davantage d’intelligence avec moins d’énergie.
NVIDIA met aussi en avant NVIDIA Dynamo, un framework destiné à orchestrer des inférences à long contexte et de grands volumes de requêtes. Dans une usine d’IA, c’est le logiciel qui pilote une partie importante de l’économie. Il doit router les requêtes, gérer la mémoire, équilibrer latence et débit, coordonner les services et éviter que le matériel coûteux reste en attente inutilement.
| Fait marquant | Chiffre communiqué | Importance |
|---|---|---|
| GB300 NVL72 vs Hopper | 50 fois plus de tokens par mégawatt | Mesure de l’amélioration en production d’IA par unité d’énergie |
| GB300 NVL72 vs Hopper | 35 fois moins de coût par token | Impact direct sur la rentabilité de l’inférence |
| Vera Rubin avec LPX | Jusqu’à 35 fois plus de performance par watt | Signale la prochaine génération en raisonnement et IA agentive |
| Vera CPU | 88 cœurs Olympus | Renforce le rôle de la CPU pour la gestion des agents, runtimes et orchestration |
| Largeur de bande mémoire Vera | Jusqu’à 1,2 To/s | Permet de soutenir des charges massives et des accès à mémoire rapides |
| Vera vs Grace (Phoronix) | 1,6 fois plus de performance moyenne géométrique | Représente une avancée générationnelle pour les CPUs centre de données |
| Vera vs un x86 à 128 cœurs (NVIDIA) | 1,5 fois plus de performance globale | Situe ARM comme concurrent sérieux dans l’écosystème IA |
| Compilation Linux sur Vera | 20 secondes | Exemple concret des performances en développement |
La prochaine étape concerne Vera Rubin. NVIDIA affirme que cette plateforme, associée à LPX, vise à relancer le rapport performance/watt dans les tâches de raisonnement et d’IA agentive. Le message est clair : l’objectif n’est plus uniquement de choisir la bonne GPU, mais d’opérer la « fabrikée d’IA » la plus efficiente en coût par token.
Cette stratégie permet aussi à NVIDIA de se protéger face à une concurrence de plus en plus spécialisée, avec des ASICs, puces d’inférence, LPUs, TPUs et autres accélérateurs sur mesure qui ciblent des segments spécifiques du marché avec de meilleures coûts ou latences. NVIDIA répond en proposant une offre intégrale : pas seulement le composant, mais une architecture complète.
Le retour au centre de l’infrastructure : la CPU
Une usine d’IA ne se limite pas à la seule GPU. NVIDIA pousse également Vera, sa nouvelle CPU pour centres de données, basée sur ses cœurs Olympus et l’architecture Armv9.2. Le message technique est d’importance : les agents ne se limitent pas à faire des opérations matricielles accélérées. Ils compilent aussi du code, lancent des environnements isolés, traitent des données, gèrent des runtimes, orchestrent des outils, exécutent Python ou Java, et interrogent des bases de données.
D’après les premiers résultats publiés par Phoronix et relayés par NVIDIA, Vera offre 88 cœurs Olympus, 176 threads, jusqu’à 1,2 To/s de bande passante mémoire LPDDR5X, 164 Mo de cache L3 unifié, support PCIe Gen 6 et CXL 3.1. La puce testée avait une consommation maximale de 450 W et la mémoire LPDDR5X consommait environ 50 W ou moins, selon Phoronix.
| Caractéristique de NVIDIA Vera | Données techniques |
|---|---|
| Architecture | Armv9.2 |
| Nombre de cœurs | 88 Olympus |
| Threads | 176 |
| Bande passante mémoire | Jusqu’à 1,2 To/s |
| Cache L2 par cœur | 2 Mo |
| Cache L3 unifié | 164 Mo |
| Connectivité | PCIe Gen 6 et CXL 3.1 |
| TDP testé | 450 W |
| Consommation mémoire | Environ 50 W ou moins |
| Disponibilité | Seconde moitié de l’année, via partenaires |
L’aspect mémoire est crucial. Les charges agentiques ne se limitent pas au nombre de cœurs ; elles requièrent un traitement parallèle avec un accès mémoire rapide et des latences stables. NVIDIA indique que Vera maintient 90 % de son débit maximal lors du test STREAM TRIAD, avec un débit plus de 4 fois supérieur par cœur comparé aux CPU x86 classiques. C’est une réponse claire à l’un des goulets d’étranglement historiques des centres de données : déplacer rapidement les données sans faire exploser la consommation d’énergie.
Concevoir avant de construire
Les usines d’IA ne s’improvisent pas. Contrairement à un centre de données traditionnel, où il suffisait d’ajouter des serveurs, du stockage ou de nouvelles cages, l’IA exige un design réfléchi intégrant puissance, refroidissement liquide, interconnexions, répartition des charges et alimentation électrique en système cohérent.
NVIDIA prône un co-conception extrême : matériel, réseau, mémoire, stockage, logiciel, énergie, refroidissement pensés dès le départ comme une seule entité. Elle mentionne aussi ses modèles de référence DSX et l’utilisation de jumeaux numériques via Omniverse DSX Blueprint pour simuler installations, équipements, refroidissement et opérations avant le déploiement.
Ce genre de préparation est crucial dans les projets de plusieurs centaines de mégawatts, voire gigawatts. Une erreur dans la conception électrique ou thermique peut limiter la croissance de toute une installation pendant des années. Dans l’univers de l’IA, chaque gaspillage d’énergie, d’espace ou de refroidissement fait mécaniquement augmenter le coût du token.
| Éléments de l’usine d’IA | Pourquoi c’est important |
|---|---|
| Calcul accéléré | Exécution de modèles, raisonnement et inférence |
| CPU | Coordination des agents, runtimes, processus et services |
| Réseau | Connexion des milliers d’accélérateurs et systèmes |
| Mémoire | Alimentation des modèles, contextes longs, charges parallèles |
| Stockage | Stockage des données, vecteurs, checkpoints et états |
| Logiciel | Orchestration des charges et maximisation de l’utilisation |
| Énergie | Limitation de la taille économique du déploiement |
| Refroidissement | Permettre une densité élevée sans dégradation |
NVIDIA souhaite également porter cette architecture au-delà des hyperéchelles : collaborations avec Cisco, Dell, HPE, Lenovo et Supermicro visent à rapprocher l’infrastructure IA des centres d’entreprise. L’objectif est qu’une usine d’IA puisse démarrer avec une charge métier précise et évoluer vers des usages plus larges par la suite.
Entreprises bâtissant ou louant de l’intelligence
La vision la plus ambitieuse de NVIDIA est que toute organisation devra, tôt ou tard, construire ou louer une usine d’IA. Toutes ne le feront pas avec une infrastructure propre : beaucoup utiliseront le cloud, les neoclouds, des fournisseurs de colocation ou des plateformes managées. L’essentiel étant de maîtriser coûts, performances, sécurité et disponibilité.
Une institution financière peut employer des agents pour l’analyse de risque, la conformité, le support interne et le développement logiciel. Un laboratoire pharmaceutique peut s’appuyer sur l’IA pour la simulation, la documentation scientifique et la découverte moléculaire. Une industrie peut recourir aux agents pour la maintenance, la planification, la robotique ou la conception. Dans tous ces cas, la question centrale demeure : comment produire une intelligence de manière sûre, efficace et continue ?
L’aspect moins évident de cette vision est sa dimension énergétique. Si une usine d’IA convertit l’électricité en tokens, l’énergie devient la matière première de l’intelligence artificielle. Il faut alors analyser le coût, la provenance de l’électricité, l’efficience thermique et la disponibilité électrique avec autant de sérieux que l’analyse des licences logicielles.
La prochaine étape de l’IA ne sera pas seulement dictée par des modèles plus performants, mais aussi par ceux qui pourront les servir au moindre coût par token, avec une consommation optimale et une disponibilité maximale. NVIDIA souhaite que cette compétition se joue sur une architecture contrôlant l’ensemble du système : GPU, CPU, réseau, logiciel, partenaires et conception des centres.
La promesse du cloud était de rendre invisible l’infrastructure. L’IA la ramène à la surface. Derrière chaque agent qui raisonne, chaque assistant qui automatise, chaque modèle qui répond, se trouve une usine physique produisant des tokens sans relâche.
Questions fréquemment posées
Que désigne NVIDIA par usine d’IA ?
Une infrastructure conçue pour produire en continu des tokens via modèles, agents, calcul accéléré, CPU, réseau, mémoire, stockage, logiciel, énergie et refroidissement, tous coordonnés comme un seul système intégré.
Pourquoi le coût par token est-il si crucial ?
Parce qu’il détermine la rentabilité à grande échelle. Plus le coût par token est faible, plus l’utilisation de modèles et d’agents dans des processus massifs devient viable.
Quel rôle joue la CPU Vera ?
Elle vise principalement les tâches CPU-intensives dans l’IA agentive : compilation de code, gestion des agents, exécution de runtimes, traitement de données, requêtes aux bases, maintien des services en parallèle.
Toutes les entreprises devront-elles construire leur propre usine d’IA ?
Pas nécessairement. Certaines opteront pour la scalabilité, la sécurité ou la souveraineté, d’autres loueront de la capacité dans le cloud ou via des fournisseurs spécialisés. L’essentiel sera de maîtriser coûts, performance, sécurité et disponibilité.
Sources : Phoronix et blogs NVIDIA