NVIDIA fait face au débat sur le coût réel de l’IA avant Vera Rubin

VAST Data et NVIDIA intègrent l'« AI OS » dans le serveur : CNode-X vise à simplifier la pile IA et à accélérer RAG ainsi que la recherche vectorielle

NVIDIA continue d’être la société qui impulse la infrastructure de l’intelligence artificielle, mais le débat au sein du marché commence à évoluer. La question n’est plus seulement de savoir si ses GPU sont les plus puissants ou si son écosystème logiciel reste le plus complet. La discussion qui prend de l’ampleur auprès des clients, des analystes et des ingénieurs porte sur un sujet plus épineux : quel est le coût réel de l’exploitation de l’IA à grande échelle lorsqu’on additionne puces, énergie, refroidissement, réseau, intégration, maintenance et dépendance au fournisseur.

Un rapport d’Evercore ISI, cité en introduction, met en lumière cette tension. Selon leur analyse, l’affirmation de NVIDIA selon laquelle sa supériorité atteint jusqu’à 35 fois en coût total de possession ne convainc pas entièrement l’ingénieur moyen en IA. Le rapport évoque aussi une perception répandue que les marges brutes de la société, supérieures à 70 %, seraient excessives. Cela ne signifie pas que NVIDIA perd son leadership, mais indique qu’une partie du marché cherche des alternatives « suffisamment bonnes » ou des ASICs propriétaires pour améliorer la rentabilité de leurs déploiements.

Le coût par token ne se limite plus au GPU

La promesse centrale de NVIDIA pour sa prochaine génération, Vera Rubin, est claire : plus de performance à un coût par token réduit. Dans sa documentation officielle, la société affirme que Vera Rubin NVL72 offrira une inférence IA à un dixième du coût par million de tokens par rapport à Blackwell, avec un entraînement utilisant un quart des GPU. Cela constitue une avancée prometteuse sur le papier, notamment dans un marché où l’inférence baptisée devient de plus en plus sollicitée, multipliant appels, requêtes, contexte et utilisation d’outils.

Cependant, les grands acheteurs d’infrastructure ne se limitent pas au calcul du seul chip. Selon Evercore ISI, certains hyperscalaires remettent en question le calcul du TCO, notamment en ce qui concerne la consommation électrique autour de l’accélérateur, incluant le refroidissement. Cette composante peut représenter entre 30 % et 50 % des coûts opérationnels totaux, d’après le résumé du rapport.

Ce détail modifie la donne. Un accélérateur peut être très efficace en termes de calcul, mais le coût total d’un rack d’IA dépend aussi de l’alimentation électrique, du refroidissement liquide, des switches, du câblage, du stockage, de l’occupation dans un centre de données, de la disponibilité de techniciens, du logiciel et des contrats de support. En réalité, une usine d’IA ne fonctionne pas seulement avec la GPU.

Magnitudes clés Données disponibles
Marge brute GAAP de NVIDIA en T4 FY2026 75,0 %
Marge brute non-GAAP de NVIDIA en T4 FY2026 75,2 %
Revenus de NVIDIA au T4 FY2026 68,127 milliards de dollars
Revenus du Data Center au T4 FY2026 62,314 milliards de dollars
Avantage officiel annoncé par NVIDIA pour Vera Rubin NVL72 1/10 du coût par million de tokens par rapport à Blackwell
Pondération estimée de l’énergie et du refroidissement dans les coûts opérationnels, selon Evercore ISI 30-50 %
Arrivée prévue de Vera Rubin chez les hyperscalaires 2T 2026
Accès attendu pour les OEM d’entreprises septembre-octobre 2026

Les marges expliquent une partie de la pression. NVIDIA a clôturé son quatrième trimestre fiscal 2026 avec une marge brute GAAP de 75,0 % et une marge non-GAAP de 75,2 %, dans un trimestre record avec 68,127 milliards de dollars de revenus. Son activité dans les centres de données a atteint 62,314 milliards, confirmant à quel point l’entreprise est devenue un fournisseur dominant de l’infrastructure IA.

Pourquoi les ASICs refont surface dans le débat

La volonté d’utiliser des ASICs ou des alternatives « suffisantes » n’est pas nouvelle, mais elle se renforce avec l’augmentation des coûts. Les grands opérateurs cloud, les laboratoires d’IA et certaines plateformes grand public ont suffisamment de volume pour justifier la conception de chips sur-mesure, à condition que les économies d’échelle compensent les efforts de conception, d’intégration et de développement logiciel.

Google utilise ses TPU depuis des années. Amazon a ses Trainium et Inferentia. Microsoft a développé Maia. Meta travaille sur ses propres accélérateurs. L’objectif n’est pas de remplacer NVIDIA du jour au lendemain, mais de réduire la dépendance pour des tâches spécifiques, notamment l’inférence stable, les modèles internes, la recommandation, le classement ou la recherche, où la flexibilité de CUDA et de l’écosystème NVIDIA n’est pas toujours indispensable.

NVIDIA conserve un avantage difficile à reproduire. Ses GPU ne sont pas seulement du silicium : ce sont CUDA, des bibliothèques, des compilateurs, des réseaux, des systèmes complets, une référence architecturale, la disponibilité de talents et une chaîne de partenaires qui minimise les risques pour ceux qui ont besoin d’un déploiement rapide. Cependant, plus l’investissement en IA est important, plus la pression pour optimiser chaque couche s’accroît.

L’inférence agentique renforce cette dynamique. Les agents IA ne se contentent pas d’une seule réponse et peuvent répéter, consulter des bases de données, exécuter du code, ouvrir des sandbox, rechercher des documents, invoquer des outils, etc. Tout cela augmente la consommation de tokens ainsi que la charge sur CPU, mémoire, réseau et stockage. C’est pourquoi Vera, la CPU de NVIDIA pour agents, apparaît comme un élément clé dans Vera Rubin : tout le travail agentique ne se résout pas uniquement dans la GPU.

Evercore ISI note aussi que la préparation des hyperscalaires à la production massive de Rubin ne pose pas de problème majeur. Ce point du rapport est favorable à NVIDIA. Si Vera Rubin arrive aux grands clients au second trimestre 2026, puis aux OEM en septembre ou octobre, la société pourra soutenir sa stratégie avec du matériel concret, pas seulement des annonces.

Le défi : démontrer le TCO en déploiements réels

L’enjeu réside dans les déploiements en production. Les promesses de coût par token sont indicatives, mais les clients mesureront le coût réel avec leurs propres charges : modèles de langage, agents internes, vision, recommandation, analytique, entraînement, fine-tuning, bases de données vectorielles et pipelines de données.

Cela peut révéler des différences importantes. Un laboratoire d’IA valorisera la mémoire, l’interconnexion et la performance ultime, alors qu’une banque peut privilégier la sécurité, la latence, la gouvernance des données et la prévisibilité des coûts. Un hyperscaler cherchera un coût par token optimal, une densité par rack, une efficacité énergétique et la capacité de faire fonctionner des dizaines de milliers de puces sans goulots d’étranglement. Un OEM d’entreprise devra empaqueter tout cela dans des systèmes vendables, facilement maintenables et compatibles avec des centres de données réels.

NVIDIA tente d’anticiper en proposant Vera Rubin NVL72, une architecture rack complète intégrant CPU Vera, GPU Rubin, NVLink, réseau, refroidissement et design modulaire. Son avantage réside dans une plateforme intégrée clé en main : des pièces conçues pour fonctionner ensemble, avec moins d’intégration manuelle et un écosystème logiciel déjà familier aux équipes IA.

Mais le succès même de NVIDIA renforce aussi la résistance du marché. Quand une entreprise contrôle toute l’infrastructure critique et affiche des marges de 70 % ou plus, ses plus grands clients ont intérêt à rechercher d’autres options. Ce n’est pas forcément parce que les alternatives sont meilleures, mais parce que la diversification donne plus de pouvoir de négociation.

Le résultat attendu n’est pas une substitution immédiate de NVIDIA, mais plutôt une segmentation accrue. Les charges exigeantes, fluctuantes ou sensibles au temps continueront d’utiliser ses plateformes. Les charges répétitives, mature ou volumineuses pourraient, quant à elles, migrer vers des ASICs propriétaires si l’économie est clairement favorable. Entre ces deux extrêmes, d’autres fournisseurs proposeront des options « suffisamment bonnes », notamment là où la consommation énergétique et la disponibilité en puissance limitent davantage que la performance brute.

Pour NVIDIA, Vera Rubin sera une étape incontournable. Si elle parvient à démontrer de réelles avancées en coût par token en prenant en compte énergie, refroidissement et opérations, elle renforcera sa position avant que les ASICs ne gagnent davantage de terrain. Si l’avantage perçu par les clients est moindre que celui mis en avant par l’entreprise, la discussion sur les marges, la dépendance et les alternatives s’intensifiera.

L’IA entre dans une phase moins spectaculaire que celle des annonces de modèles, mais plus déterminante pour le business : l’économie de l’infrastructure. La question que se poseront désormais les acheteurs ne sera plus seulement « combien ça fournit » mais aussi « combien ça coûte à faire fonctionner chaque jour ».

Questions fréquentes

Que remet en question le rapport d’Evercore ISI sur NVIDIA ?
Ce rapport indique que l’avantage en coût total de possession annoncé par NVIDIA ne convainc pas totalement certains ingénieurs ou clients, et qu’il existe une perception de marges brutes excessives.

Qu’est-ce que Vera Rubin NVL72 ?
C’est la prochaine plateforme NVIDIA pour l’IA à l’échelle rack, conçue pour entraîner et effectuer des inférences avancées, intégrant CPU Vera, GPU Rubin, mémoire, réseau et interconnexion optimisés.

Pourquoi les hyperscalaires cherchent-ils des ASICs propriétaires ?
Parce qu’ils ont un volume suffisant pour justifier la conception de puces spécialisées qui réduisent les coûts pour des tâches spécifiques, notamment l’inférence massive et les opérations répétitives où la flexibilité maximale d’une GPU générale n’est pas toujours nécessaire.

NVIDIA est-elle en danger immédiat face à ces alternatives ?
Pas nécessairement. NVIDIA conserve une forte avance en matériel, logiciel et écosystème. Le vrai défi réside davantage dans la pression sur les prix, les marges et la dépendance de ses principaux clients, plutôt que dans une substitution immédiate.

le dernier