NVIDIA cherche à révolutionner le langage de toute l’industrie des centres de données. Elle ne parle plus simplement de GPU, serveurs ou clusters accélérés, mais évoque des “usines d’IA” : des usines conçues pour produire en continu des tokens, à l’image d’une usine qui génère de l’électricité, de l’acier ou des composants. La métaphore est commerciale, mais elle permet de saisir un changement profond : l’intelligence artificielle ne peut plus se réduire à une couche logicielle tournant sur une infrastructure générique.

Selon NVIDIA, une usine d’IA transforme l’énergie en intelligence. La « unité de production » n’est pas une pièce physique, mais le token généré par un modèle lorsqu’il raisonne, répond, écrit du code, coordonne des agents ou exécute une tâche. Ainsi, les métriques essentielles ressemblent davantage à celles de l’industrie lourde qu à celles des applications SaaS : tokens par seconde, tokens par watt, coût par token, taux d’utilisation de l’infrastructure, disponibilité en continu.

L’inférence ne se limite plus à une requête isolée

Le changement majeur concerne la charge de travail. Pour beaucoup d’utilisateurs, la génération d’IA débutait par une simple requête : on tape une question, le modèle répond et la session se termine. Avec l’IA agentique, ce modèle est dépassé. Un agent peut planifier, rechercher des informations, utiliser des outils, lire des documents, écrire du code, interroger des bases de données, créer des sous-agents et prendre des décisions en chaîne.

Cela transforme l’inférence en un processus plus long, plus interactif et plus complexe à orchestrer. Il ne suffit plus d’avoir une GPU puissante en attente d’une requête. Il faut coordonner mémoire, stockage, réseau, CPU, logiciels, files d’attente et services externes pour assurer un flux fluide et sans interruption.

NVIDIA présente cela comme un problème de pile complète. Les modèles nécessitent un calcul accéléré, mais aussi une mémoire rapide, un stockage pour le contexte, un réseau à faible latence pour coordonner les services, et des logiciels capables de maintenir une haute utilisation du système. Si une couche est en retard, le coût par token augmente et l’expérience utilisateur se dégrade.

Métrique Ce qu’elle mesure dans une usine d’IA
Tokens par seconde Capacité à produire réponses et actions
Tokens par watt Efficacité énergétique du système
Coût par token Viabilité économique de l’inférence à grande échelle
Utilisation Taux d’exploitation de la GPU, CPU, mémoire et réseau
Disponibilité (Uptime) Continuité de la production d’IA
Latence Temps de réponse dans les agents et applications interactives

Cette approche a des implications pour toute organisation souhaitant déployer une IA sérieusement. Le choix d’un modèle ne suffit plus ; il faut décider où l’exécuter, combien coûte chaque interaction, quelle latence est acceptable, comment maintenir le contexte, quelles données récupérer, et combien l’infrastructure consomme d’énergie.

Blackwell, Vera Rubin et l’économie du token

NVIDIA positionne Blackwell Ultra et les systèmes GB300 NVL72 comme des réponses à cette nouvelle économie. Selon la société, ces systèmes peuvent générer 50 fois plus de tokens par mégawatt que la génération Hopper, tout en réduisant le coût par token de 35 fois. Ces chiffres, fournis par NVIDIA, doivent être compris dans leur cadre comparatif, mais ils illustrent la tendance : produire plus d’intelligence en consommant moins d’énergie.

L’entreprise met aussi en avant NVIDIA Dynamo, un cadre destiné à orchestrer l’inférence sur de longs contextes et de grands volumes de requêtes. Dans une usine d’IA, le logiciel joue un rôle crucial dans l’économie : il doit router les requêtes, gérer la mémoire, équilibrer latence et débit, coordonner les services et éviter que le matériel coûteux reste en attente.

La prochaine étape est Vera Rubin. NVIDIA affirme que cette plateforme, associée à LPX, est conçue pour repousser encore le rapport performance/watt dans les charges de raisonnement et d’IA agentique. Le message est clair : l’entreprise veut faire passer la conversation de “quelle GPU acheter” à “quelle usine d’IA exploiter au moindre coût par token”.

Cette stratégie permet aussi à NVIDIA de se protéger face à une concurrence de plus en plus spécialisée. ASICs, puces d’inférence, LPUs, TPUs et accélérateurs sur mesure tentent de dominer certaines niches avec de meilleurs coûts ou latences. NVIDIA répond en proposant une offre intégrée, en vendant non seulement le chip, mais toute l’architecture complète.

Concevoir avant de construire

Les usines d’IA ne se montent pas à la louche. Un centre de données traditionnel pouvait être étendu en ajoutant des serveurs, du stockage ou des racks supplémentaires. En IA, la densité de puissance, la refroidissement liquide, les interconnexions, la répartition des charges et l’alimentation électrique obligent à concevoir le système comme une unité intégrée.

NVIDIA parle de co-conception extrême : matériel, réseau, mémoire, stockage, logiciel, énergie et refroidissement pensés en synergie dès l’amont. Elle évoque aussi ses références de conception DSX et l’usage de jumeaux numériques avec Omniverse DSX Blueprint, permettant de modéliser installations, équipements, refroidissements et opérations avant déploiement réel.

Cela devient crucial pour des projets de plusieurs centaines de mégawatts ou gigawatts. Une erreur dans la conception électrique ou thermique peut limiter pendant des années la capacité d’extension d’une installation. L’IA ne pardonne pas : gaspiller énergie, espace ou refroidissement augmente immédiatement le coût des tokens.

Couche de l’usine d’IA Pourquoi c’est important
Calcul accéléré Exécute modèles, raisonnement et inférence
Réseau Coordonne des milliers d’accélérateurs et de services
Mémoire Alimente modèles et longues sessions contextuelles
Stockage Conserve données, vecteurs et états
Logiciels Orchestre la charge et maximise l’utilisation
Énergie Détermine la taille économique du déploiement
Refroidissement Permet des densités élevées sans dégradation

NVIDIA souhaite également étendre cette architecture au-delà des hyperscalaires, en collaborant avec Cisco, Dell, HPE, Lenovo et Supermicro pour rapprocher l’infrastructure IA des centres d’affaires. L’idée : qu’une usine d’IA puisse démarrer avec une charge spécifique et évoluer vers des usages plus larges.

Entreprises construisant ou louant de l’intelligence

L’affirmation la plus ambitieuse de NVIDIA est que toutes les organisations devront, à terme, construire ou louer une usine d’IA. Toutes ne disposeront pas forcément d’une infrastructure en propre. Beaucoup passeront par le cloud, le néocloud, des fournisseurs de colocation ou des plateformes gérées. Mais l’enjeu central sera de maîtriser coût, performance, sécurité et disponibilité.

Une institution financière pourra utiliser des agents pour l’analyse de risques, la conformité, le support interne ou le développement logiciel. Une société pharmaceutique pourra s’appuyer sur l’IA pour la simulation, la documentation scientifique ou la découverte de molécules. Une industrie pourra déployer des agents pour la maintenance, la planification, la robotique ou la conception. Dans tous ces cas, la question fondamentale restera : comment produire de l’intelligence de manière sûre, efficace et continue.

NVIDIA affirme déjà gérer sa propre usine d’IA d’entreprise, avec des centaines d’agents autonomes soutenant les équipes d’ingénierie, de logiciel et d’exploitation. C’est une manière de démontrer que la vision ne se limite pas à vendre de l’infrastructure, mais aussi à réorganiser le travail au sein de l’entreprise.

L’aspect le plus critique de cette philosophie reste sa consommation énergétique. Si une usine d’IA convertit de l’électricité en tokens, l’énergie devient alors une matière première de l’intelligence artificielle. Cela impose d’étudier le coût, la provenance de l’électricité, l’efficacité thermique et la disponibilité en puissance, comme on l’aurait fait pour des licences logicielles.

La prochaine étape de l’IA ne sera pas uniquement déterminée par la puissance des modèles, mais aussi par ceux qui pourront les servir à moindre coût par token, avec une faible consommation par réponse et une disponibilité maximale. NVIDIA souhaite que cette bataille se joue dans une architecture intégrée : GPU, réseau, logiciels, systèmes, partenaires et conception des centres de données.

La promesse du cloud était d’abstraire l’infrastructure. L’IA la rend manifeste à nouveau. Derrière chaque agent qui raisonner, chaque assistant qui programme et chaque modèle qui répond, se trouve une usine physique produisant des tokens sans relâche.

Questions fréquentes

Que désigne NVIDIA par usine d’IA ?
Une infrastructure conçue pour produire des tokens en continu via des modèles, agents, calcul accéléré, réseau, mémoire, stockage, logiciel, énergie et refroidissement coordonnés comme un tout intégrée.

Pourquoi le coût par token est-il si essentiel ?
Parce qu’il détermine si une entreprise peut faire évoluer l’IA de manière rentable. Plus le coût par token est faible, plus l’utilisation de modèles et agents dans des processus massifs est viable.

Qu’apporte la notion d’IA agentique ?
Les agents effectuent des tâches longues et chaînées : recherche, raisonnement, utilisation d’outils, appel à des services, exécution d’actions. Cela requiert une coordination d’infrastructure plus sophistiquée qu’une simple requête à un chatbot.

Toutes les entreprises devront-elles construire leur propre usine d’IA ?
Pas forcément. Certaines le feront pour des raisons d’échelle, de sécurité ou de souveraineté. D’autres se tourneront vers le cloud, le néocloud ou des fournisseurs spécialisés. L’enjeu : maîtriser le coût, la performance, la sécurité et la disponibilité.

Source : Blog Nvidia et Noticias Intelligence Artificielle