Les présentations du CES sont souvent remplies de promesses concernant la puissance, les écrans ou les graphismes. Mais, lors de l’édition 2026, Lenovo et NVIDIA ont voulu recentrer l’attention sur un concept moins spectaculaire mais crucial pour l’avenir immédiat de l’Intelligence Artificielle : l’industrialisation du calcul. Sur la scène de Tech World @ CES 2026, organisé au Sphere (Las Vegas), les deux entreprises ont annoncé le Lenovo AI Cloud Gigafactory avec NVIDIA, un programme destiné à aider les fournisseurs de cloud IA à déployer des “usines d’IA” à l’échelle des gigawatts et à mettre rapidement en production des services avancés.
Ce concept de “usine d’IA” n’est pas un simple argument marketing. Il reflète une réalité que les entreprises subissent concrètement : entraîner des modèles coûte cher, mais les mettre en production — avec des données réelles, des utilisateurs réels et en temps réel — détermine le retour sur investissement. Là où le goulet d’étranglement n’est plus toujours “combien de GPUs” sont disponibles, mais la rapidité avec laquelle une infrastructure transformée en résultats opérationnels.
Le nouveau critère : “le temps jusqu’au premier token”
Lenovo et NVIDIA ont introduit un indicateur clé : le TTFT (time to first token), c’est-à-dire le délai avant qu’un système ne renvoie le premier fragment de sortie utile après une requête à un modèle. Dans un monde où les agents IA commencent à exécuter des tâches, consulter des outils et répondre en temps réel, ce détail devient stratégique : un TTFT élevé entraîne des expériences maladroites, une perte de productivité et des coûts accrus.
Le programme vise à permettre aux fournisseurs de réaliser un TTFT “en quelques semaines”, grâce à une approche “industrialiste” : composants prêts à déployer, expertise guidée, processus de fabrication reproductibles, conçus pour évoluer rapidement et sans surprises. En d’autres termes : moins de bricolage en datacenter, plus une “ligne d’assemblage” pour l’IA.
Gigawatts, millions de GPUs et le défi de l’efficience
Parler de “gigawatts” n’est pas trivial. Cela implique des infrastructures dont la densité de calcul oblige à repenser la conception thermique, réseau, stockage et fonctionnement. Lenovo mise ici sur sa carte maîtresse historique : Neptune, sa technologie de refroidissement liquide pour infrastructures à haute densité, et sa capacité à produire et intégrer à l’échelle mondiale. La proposition conjointe promet de réduire les frictions depuis la conception jusqu’à l’exploitation, avec des services tout au long du cycle de vie (Lenovo Hybrid AI Factory Services) et un catalogue d’usages reproductibles (Lenovo AI Library) pour accélérer l’installation.
La mission déclarée est claire : réduire le délai entre “achat de calcul” et “facturation pour des services IA”. Un message direct pour les fournisseurs qui doivent répondre à des clients d’entreprises exigeant une disponibilité, une prévisibilité, une sécurité, une efficience énergétique et des délais de réponse constants, proches de ceux d’un système critique.
Matériel de dernière génération : Blackwell Ultra dès aujourd’hui et Rubin demain
Sur le plan technique, l’annonce s’appuie sur la feuille de route de NVIDIA. Le programme inclut l’accès à l’architecture NVIDIA Blackwell Ultra pour concevoir des clusters sur mesure avec calcul accéléré, stockage et réseaux. Lenovo met en avant le NVIDIA GB300 NVL72, configuré par Lenovo : un système “rack-scale” intégrant 72 GPUs Blackwell Ultra et 36 CPUs NVIDIA Grace, dans une plateforme de refroidissement liquide à l’échelle du rack.
Mais l’ambition dépasse le présent. Lenovo indique que le programme assurera également le soutien au système récemment annoncé, NVIDIA Vera Rubin NVL72, le système “phare” de NVIDIA pour entraînement et inférence, intégrant 72 GPUs Rubin, 36 CPUs Vera, ainsi qu’un ensemble de solutions réseau et sécurité destinées aux usines d’IA nouvelle génération, comprenant ConnectX-9 SuperNICs, BlueField-4 DPUs et Spectrum-X Ethernet, ainsi que de nouvelles options de commutation comme Spectrum-6 et des commutateurs en fibre optique Ethernet.
La lecture stratégique est claire : il ne s’agit pas seulement de vendre des serveurs, mais d’assurer que les clients puissent passer d’une génération à l’autre sans restructurer totalement leur façon d’opérer, avec un chemin d’upgrade clair face à la croissance des modèles, leur multimodalité et leur dépendance accrue aux réseaux et au stockage ultra-rapides.
De la puissance brute au déploiement “à la vitesse de la fabrication”
Les dirigeants ont évoqué un changement de paradigme. Lenovo a insisté sur le fait que la valeur n’est plus seulement dans la capacité de calcul disponible, mais dans la rapidité avec laquelle ce calcul génère des résultats. NVIDIA a réaffirmé que chaque pays et secteur finira immanquablement par construire ou louer des usines d’IA pour “produire de l’intelligence”, résumant ainsi l’évolution du marché : des services d’IA en tant que production industrielle, avec contrôle qualité, métriques et mise à l’échelle.
Dans ce contexte, l’opérationnel est aussi critique que l’équipement matériel. C’est pourquoi le programme combine infrastructure, réseaux, logiciel (incluant l’intégration à NVIDIA AI Enterprise et des modèles ouverts comme Nemotron, selon la proposition) et services. C’est une offre destinée à transformer des fournisseurs en véritables partenaires IA, pas seulement en vendeurs de GPU.
L’enjeu pour l’IA d’entreprise
Pour de nombreuses organisations, le dilemme n’est plus “faut-il utiliser l’IA”, mais où l’exécuter et avec quelles garanties : cloud public, infrastructure interne ou hybrides. La démarche de Lenovo et NVIDIA vise à accompagner cette transition en proposant un chemin pour déployer l’IA à grande échelle selon une logique précise : réduire le délai jusqu’à la mise en production, avec le TTFT comme symbole d’une priorité accrue pour la latence, la stabilité et l’expérience utilisateur finale.
Et un dernier point qui ne passe pas inaperçu : l’événement s’est tenu dans le Sphere, reconnu pour ses capacités technologiques avancées en production immersive. Lenovo a souligné que sa propre infrastructure participait déjà aux flux de création de contenu du lieu, illustrant que les “usines d’IA” ne sont pas un avenir abstrait, mais un outil concret pour des industries déjà manipulant des volumes massifs de données aujourd’hui.
Questions fréquentes
Que signifie “usine d’IA” et pourquoi parle-t-on d’échelle en gigawatts ?
Une usine d’IA désigne un environnement d’infrastructure conçu pour produire de l’intelligence à grande échelle (entraînement, inférence et exploitation des modèles), avec des réseaux, du stockage et des logiciels optimisés. La référence aux gigawatts concerne ces infrastructures à très haute densité de calcul, nécessitant des architectures thermiques et énergétiques avancées.
Qu’est-ce que le “temps jusqu’au premier token” (TTFT) et pourquoi est-il crucial ?
Le TTFT mesure la rapidité avec laquelle un système renvoie la première sortie utile lors d’une requête à un modèle. Dans des applications professionnelles en temps réel, un TTFT faible améliore l’expérience utilisateur, réduit les délais d’attente et optimise les coûts opérationnels.
Qu’est-ce qu’un système NVL72, comme le GB300 NVL72 ou Vera Rubin NVL72 ?
Le NVL72 désigne généralement des plateformes “rack-scale” intégrant 72 GPUs et processeurs associés, conçues pour l’IA à grande échelle, avec des réseaux haute performance et une architecture adaptée tant pour l’entraînement que pour l’inférence en masse.
Quels bénéfices offre le refroidissement liquide Neptune dans les déploiements d’IA haute densité ?
La refroidissement liquide permet d’évacuer la chaleur de manière plus efficace que l’air dans des racks très denses, améliorant la stabilité thermique et réduisant la consommation liée à la climatisation. Cela facilite la croissance des charges IA sans augmenter proportionnellement la consommation énergétique.
via : news.lenovo
Voici comment le nouveau VECTOR® TEOS 3D de Lam Research est fabriqué en Oregon, une pièce clé pour l’emballage avancé des puces IA