NVIDIA et Vera Rubin : le débat sur le coût réel de l’IA

VAST Data et NVIDIA intègrent l'« AI OS » dans le serveur : CNode-X vise à simplifier la pile IA et à accélérer RAG ainsi que la recherche vectorielle

NVIDIA reste la société qui tire l’infrastructure de l’intelligence artificielle, mais le débat de marché a glissé. La question n’est plus seulement de savoir si ses GPU sont les plus puissants ou si son environnement logiciel reste le plus complet. Ce qui monte chez les clients, les analystes et les ingénieurs, c’est un sujet plus épineux : quel est le coût réel de l’IA à grande échelle quand on additionne puces, énergie, refroidissement, réseau, intégration, maintenance et dépendance au fournisseur ?

Un rapport d’Evercore ISI cristallise cette tension. Selon leurs analystes, l’affirmation de NVIDIA selon laquelle sa supériorité atteindrait jusqu’à 35 fois en coût total de possession ne convainc pas l’ingénieur IA moyen. Le rapport soulève aussi une perception répandue que les marges brutes de la société, supérieures à 70 %, sont excessives. NVIDIA ne perd pas son leadership, mais une partie du marché cherche des alternatives « suffisamment bonnes » ou des ASICs maison pour améliorer la rentabilité de leurs déploiements.

Le coût par token ne se limite plus au GPU

La promesse centrale de Vera Rubin est claire : plus de performance à un coût par token réduit. NVIDIA affirme que le Vera Rubin NVL72 offrira une inférence à un dixième du coût par million de tokens par rapport à Blackwell, avec un entraînement utilisant un quart des GPU. C’est une avancée sérieuse sur le papier, surtout dans un marché où l’inférence se multiplie : appels en série, contextes étendus, outils invokés à chaque étape.

Mais les grands acheteurs d’infrastructure ne s’arrêtent pas au chip. Evercore ISI note que certains hyperscalaires remettent en question le calcul du TCO, en particulier la consommation électrique autour de l’accélérateur : refroidissement compris, cette composante peut représenter entre 30 % et 50 % des coûts opérationnels totaux. Un accélérateur très efficace en calcul peut rester cher à héberger si le rack consomme trop, si le refroidissement liquide coûte cher ou si l’intégration réseau et stockage s’alourdit.

IndicateurDonnées
Marge brute GAAP NVIDIA T4 FY202675,0 %
Marge brute non-GAAP NVIDIA T4 FY202675,2 %
Revenus totaux T4 FY202668,127 milliards de dollars
Revenus Data Center T4 FY202662,314 milliards de dollars
Avantage Vera Rubin NVL72 vs Blackwell1/10 du coût par million de tokens (annonce officielle)
Énergie + refroidissement dans les coûts opérationnels30 à 50 % (estimation Evercore ISI)
Disponibilité chez les hyperscalaires2ᵉ trimestre 2026
Accès OEM entreprisesSeptembre-octobre 2026

Les marges de NVIDIA expliquent une partie de la pression. Au T4 FY2026, la société affichait 68,127 milliards de dollars de revenus, dont 62,314 milliards pour les centres de données. Quand un fournisseur contrôle l’infrastructure critique de ses plus grands clients avec des marges de 75 %, ces clients ont structurellement intérêt à chercher des alternatives, ne serait-ce que pour garder du pouvoir de négociation.

Pourquoi les ASICs refont surface dans le débat

L’idée d’utiliser des ASICs propriétaires n’est pas nouvelle, mais elle regagne du terrain avec la montée des coûts. Google déploie ses TPU depuis des années. Amazon a ses Trainium et Inferentia. Microsoft a développé Maia. Meta travaille sur ses propres accélérateurs. L’objectif n’est pas de remplacer NVIDIA du jour au lendemain, mais de réduire la dépendance sur des tâches spécifiques : inférence stable, modèles internes, recommandation, classement, recherche. Sur ces usages, la flexibilité de CUDA n’est pas toujours nécessaire.

NVIDIA garde un avantage difficile à copier. Ses GPU ne sont pas que du silicium : c’est CUDA, des bibliothèques, des compilateurs, des réseaux, une référence architecturale, des talents disponibles et une chaîne de partenaires qui minimise les risques pour ceux qui veulent déployer vite. Mais plus l’investissement IA grimpe, plus la pression pour optimiser chaque couche s’intensifie. C’est là que le coût des jetons dans l’IA agentique devient un sujet de préoccupation concret, bien au-delà des benchmarks publiés.

L’inférence agentique renforce cette dynamique. Les agents IA ne répondent pas en une seule passe : ils itèrent, consultent des bases de données, exécutent du code, invoquent des outils. Cela multiplie la consommation de tokens mais aussi la charge sur CPU, mémoire, réseau et stockage. C’est pour ça que Vera, la CPU de NVIDIA pour agents, apparaît comme un élément central dans l’architecture Vera Rubin : tout le travail agentique ne se règle pas dans la GPU seule.

Le défi : démontrer le TCO en déploiements réels

Les promesses de coût par token restent indicatives jusqu’à la production. Chaque client mesurera le coût réel avec ses propres charges : LLMs, agents internes, vision, recommandation, analytique, fine-tuning, bases vectorielles. Les résultats varieront selon l’usage. Un laboratoire IA valorisera la mémoire haute bande passante et l’interconnexion. Une banque privilégiera la latence, la gouvernance des données et la prévisibilité des coûts. Un hyperscaler cherchera la densité par rack et l’efficacité énergétique. Un OEM devra tout empaqueter dans des systèmes maintenables pour des centres de données réels.

NVIDIA tente d’anticiper avec Vera Rubin NVL72 : une architecture rack complète qui intègre CPU Vera, GPU Rubin, NVLink, réseau, refroidissement et design modulaire. Le pari est une plateforme clé en main où les pièces sont conçues pour fonctionner ensemble, avec moins d’intégration manuelle et un environnement logiciel que les équipes IA connaissent. La question est de savoir si les clients valideront ce calcul dans leurs conditions de production plutôt que dans les benchmarks de NVIDIA.

La conclusion d’Evercore ISI est modeste mais importante : les hyperscalaires sont prêts pour la production massive de Rubin, sans blocage majeur anticipé. C’est favorable à NVIDIA. Si Vera Rubin arrive chez les grands clients au deuxième trimestre 2026, puis chez les OEM en septembre ou octobre, la société pourra défendre sa position avec du matériel réel, pas seulement des annonces.

L’IA entre dans une phase moins spectaculaire que celle des grandes présentations de modèles, mais plus déterminante pour le business : l’économie de l’infrastructure. Les acheteurs poseront de moins en moins la question « combien ça calcule » et de plus en plus « combien ça coûte à faire tourner chaque jour ». C’est précisément ce que le dilemme productivité-emploi en Chine illustre aussi : l’IA industrielle se mesure à l’impact sur la structure de coûts réelle, pas aux benchmarks.

Questions fréquentes

Que remet en question le rapport d’Evercore ISI sur NVIDIA ?

L’avantage en coût total de possession annonce par NVIDIA ne convainc pas totalement les ingénieurs IA. Le rapport pointe aussi des marges brutes (75 %) perçues comme excessives par certains clients, ce qui pousse à rechercher des alternatives ou des ASICs maison.

Qu’est-ce que Vera Rubin NVL72 ?

C’est la prochaine plateforme NVIDIA à l’échelle rack, qui intègre CPU Vera, GPU Rubin, NVLink, réseau et refroidissement. NVIDIA annonce une inférence à un dixième du coût par million de tokens par rapport à Blackwell. Disponibilité hyperscalaires : T2 2026 ; OEM : septembre-octobre 2026.

Pourquoi les hyperscalaires développent-ils leurs propres puces ?

Google (TPU), Amazon (Trainium/Inferentia), Microsoft (Maia) et Meta ont le volume pour justifier des ASICs dédiés. L’objectif n’est pas de remplacer NVIDIA globalement, mais de réduire la dépendance sur des tâches répétitives où la flexibilité de CUDA n’est pas utile et où le coût unitaire peut être abaissé.

NVIDIA est-elle menacée à court terme ?

Pas de remplacement immédiat. L’avance de NVIDIA en matériel, logiciel et écosystème reste significative. La vraie pression vient des marges élevées et de la dépendance que ses plus grands clients veulent réduire progressivement pour garder du pouvoir de négociation.

le dernier