NVIDIA traverse une période exceptionnellement prospère dans son histoire : ses ventes de GPU pour l’intelligence artificielle explosent, dépassant largement toutes les prévisions, et ses bénéfices ont connu une hausse spectaculaire grâce à la fièvre pour l’entraînement et l’exécution de modèles de IA générative dans le cloud. Cependant, tandis que Jensen Huang et sa société dominent le marché actuel, de plus en plus de géants technologiques construisent leur propre avenir avec des puces sur-mesure.
Google, Amazon, Microsoft, OpenAI, Apple, Meta et Tesla développent une nouvelle génération de processeurs IA : ASICs personnalisés, FPGAs et NPUs pour le edge, cherchant à réduire leur dépendance à NVIDIA et à diminuer le coût par calcul. Le paysage matériel de l’IA devient ainsi beaucoup plus fragmenté et concurrentiel qu’il ne l’était il y a seulement quelques années.
Des GPU pour jeux vidéo au moteur de la révolution IA
Ainsi, même si cela peut sembler évident aujourd’hui, la suprématie de NVIDIA n’était pas écrite dans le marbre. Ses GPU sont nés comme accélérateurs graphiques pour les jeux vidéo, mais en 2012, ils ont connu une étape décisive lorsqu’ils ont été utilisés pour entraîner AlexNet, le réseau neuronal considéré par beaucoup comme le “Big Bang” de l’IA moderne.
Alors que certains concurrents dans ce fameux concours de vision par ordinateur utilisaient des CPU, AlexNet exploitait la parallélisation massive des GPU pour entraîner le modèle plus rapidement et avec une plus grande précision. Ce moment a changé la donne : les cartes graphiques, initialement conçues pour le rendu 3D, sont devenues idéales pour la multiplication de matrices et l’entraînement de réseaux neuronaux profonds.
Aujourd’hui, les GPU NVIDIA se vendent dans des systèmes en rack complets, comme le GB200 NVL72, intégrant 72 GPU Blackwell opérant comme un seul « super-chip ». La société indique que ces racks se vendent autour de 3 millions de dollars l’unité et qu’elle expédie environ 1 000 systèmes par semaine à travers le monde. Au cours de la dernière année, environ 6 millions de GPU Blackwell de dernière génération auraient été livrés.
Ces équipements ne restent pas confinés aux laboratoires : ils alimentent des centres de données pour Amazon, Microsoft, Google, Oracle, CoreWeave, ainsi que des gouvernements comme la Corée du Sud, l’Arabie Saoudite ou le Royaume-Uni. Des grands modèles de langage, tels que ceux d’OpenAI ou Anthropic, sont entraînés sur des centaines de milliers de ces GPU.
La clé ne réside pas uniquement dans le hardware : CUDA, la plateforme logicielle propriétaire de NVIDIA, est devenue le standard de facto pour programmer les GPU en IA, un écosystème que même AMD, avec son environnement plus ouvert, n’a pas encore réussi à égaler en termes de communauté et d’outils.
ASICs : des puces sur-mesure pour plus de contrôle, Google, Amazon et OpenAI en tête
Mais à mesure que le marché mature, de nombreux acteurs géants cherchent quelque chose de différent des GPU « couteau suisse ». Pour la phase d’inférence – lorsque le modèle déjà entraîné répond aux requêtes des utilisateurs –, les puces plus simples, spécialisées et efficaces, telles que les ASICs (circuits intégrés spécifiques à une application), commencent à gagner du terrain.
Un ASIC est l’opposé de la versatilité. Il est “câblé” pour effectuer un type de calcul très précis, y compris avec une efficacité remarquable. Une fois fabriqué, il ne peut pas être reprogrammé, ce qui implique de faire un compromis entre souplesse et rapidité ainsi qu’un coût opérationnel réduit.
Google : une expérience d’une décennie avec ses TPUs
Google a été pionnier dans ce domaine. En 2015, il a lancé sa première Tensor Processing Unit (TPU), un ASIC conçu dès l’origine pour accélérer les tâches de l’IA. Depuis, la société ne cesse d’itérer jusqu’à sa septième génération, la TPU Ironwood, dévoilée en novembre 2025.
Les TPUs sont utilisées en interne pour des produits comme la recherche, YouTube, Traduction ou Gmail, et alimentent également l’infrastructure de Google Cloud. Par exemple, Anthropic a annoncé qu’il entraînera son modèle Claude sur jusqu’à 1 million de TPUs.
Certaines expertises estiment que, dans certains scénarios, les TPUs peuvent battre – ou même surpasser – les GPU NVIDIA en termes de performance brute pour des tâches spécifiques. Jusqu’ici, Google a été très sélectif dans leur déploiement auprès de tiers, mais la pression du marché pourrait à terme l’inciter à ouvrir davantage son environnement.
Amazon : Inferentia et Trainium pour l’entraînement et l’inférence sur AWS
Amazon Web Services a pris une longueur d’avance dans la course aux ASIC en achetant la startup Annapurna Labs. En 2018, la société a lancé Inferentia pour l’inférence, puis en 2022, Trainium pour l’entraînement. La seconde génération, Trainium2, alimente maintenant l’un des plus grands centres de données IA de la compagnie en Indiana, où Anthropic entraîne ses modèles avec des centaines de milliers de puces.
Le responsable de l’architecture de Trainium a indiqué que ses ASIC offrent entre 30 % et 40 % de meilleur rapport performance/prix par rapport à d’autres accélérateurs disponibles sur AWS. Néanmoins, AWS continue aussi d’acheter massivement des GPU NVIDIA pour ses clients préférant cet écosystème.
OpenAI et Broadcom : la prochaine étape
OpenAI ne souhaite pas dépendre indéfiniment de puces tierces. La société a conclu un accord avec Broadcom pour développer ses propres ASICs de IA à partir de 2026. Broadcom a déjà collaboré au développement des TPUs de Google et des accélérateurs de Meta, consolidant sa position comme l’un des grands gagnants « silencieux » de la croissance de l’IA.
Microsoft, de son côté, conçoit ses puces Maia 100 pour ses centres de données, tandis que d’autres acteurs comme Tesla, Qualcomm, Huawei, ByteDance ou Alibaba travaillent également sur leurs propres designs.
IA en périphérie : NPUs et puces intégrées dans PC, mobiles et voitures
Tout ne se fait pas dans le cloud. Une part croissante de l’intelligence artificielle s’exécute directement sur les appareils – mobiles, ordinateurs portables, véhicules, caméras ou robots – grâce à NPUs (Neural Processing Units) et autres accélérateurs intégrés dans les System-on-Chips (SoCs).
L’objectif est double :
- Diminuer la latence, en évitant d’envoyer les données vers un centre de traitement.
- Améliorer la confidentialité en conservant les données sensibles sur l’appareil lui-même.
Des fabricants comme Qualcomm, Intel et AMD intègrent des NPUs dans leurs processeurs pour PC, tandis que Apple inclut un “Neural Engine” dans ses puces M pour Mac et dans la série A pour iPhone. Les dernières versions d’Android haut de gamme intègrent également des NPUs dans les Snapdragon ou les Exynos équipés de NPU propre à Samsung.
Ces unités permettent d’exécuter des assistants vocaux locaux, des traductions en temps réel, de la retouche photo et vidéo avancée ou des fonctions de sécurité, le tout sans dépendre systématiquement du cloud. Si la majorité des dépenses en IA reste concentrée dans les centres de données, plusieurs analystes anticipent une forte croissance des investissements en IA en périphérie dès que ces fonctions seront généralisées dans la vie quotidienne.
FPGAs : la pièce flexible du puzzle
La quatrième grande catégorie de puces dans cet univers est celle des FPGAs (Field-Programmable Gate Arrays), des dispositifs reconfigurables par logiciel. Moins efficients que des ASIC mais plus modulables que des GPU pour l’entraînement de très grands modèles, ils offrent un compromis intéressant : leur reprogrammation permet de s’adapter à de nouveaux algorithmes après leur fabrication.
Des entreprises comme AMD (après l’acquisition de Xilinx) et Intel (suite à l’achat d’Altera) dominent ce secteur. Les FPGAs sont utilisées dans les réseaux, télécommunications, automatisation industrielle, automobile et, dans certains cas, comme accélérateurs d’inférence pour des tâches très spécifiques où la flexibilité est clé.
TSMC, le véritable “denominateur commun” de la révolution IA
Dans l’arrière-plan de presque tous ces chips – GPU de NVIDIA et AMD, TPUs de Google, Trainium d’Amazon, ASICs d’OpenAI, NPUs d’Apple et Qualcomm – se trouve un même fabricant : TSMC (Taiwan Semiconductor Manufacturing Company).
Ce géant taïwanais produit les nœuds de fabrication les plus avancés au monde et s’est imposé comme un acteur stratégique dans la chaîne d’approvisionnement de l’IA. Depuis sa nouvelle usine en Arizona jusqu’à ses usines à Taïwan, TSMC est responsable de la production physique de la majorité de ces puces.
Cela introduit une dimension géopolitique et de risques liés à la concentration : même si la compétition en conception de puces s’intensifie, la capacité de fabrication demeure très concentrée entre peu d’acteurs, avec TSMC en tête.
NVIDIA maintient sa position stratégique
Face à la diversité des puces, la grande question est de savoir si NVIDIA risque de perdre sa place de leader. Pour le moment, la majorité des analystes répondent que pas à court terme.
La société a non seulement réussi à s’imposer comme la référence en termes de matériel, mais a aussi construit au fil des années un écosystème de développeurs, bibliothèques et outils extrêmement difficile à reproduire. La maturité de cet environnement est particulièrement valorisée par les grandes entreprises et startups en phase de production, qui ne peuvent pas se permettre de miser sur des plateformes immatures.
Si ASICs, NPUs et FPGAs prendront de l’ampleur, les GPU NVIDIA restent aujourd’hui le pilier de l’évolution de l’IA. Comme le rappellent certains experts, cette position n’est pas le fruit du hasard, mais résulte de décennies d’investissements dans le hardware et le logiciel.
Questions fréquentes sur les puces IA
Pourquoi les GPU sont-elles si cruciales pour l’intelligence artificielle ?
Parce qu’elles sont conçues pour exécuter en parallèle des milliers d’opérations mathématiques simples, ce qui correspond parfaitement aux calculs nécessaires aux réseaux neuronaux. Cela les rend particulièrement adaptées pour entraîner de grands modèles ou pour en déduire des réponses en temps réel (inférence).
Quels avantages offrent les ASICs par rapport aux GPU dans le domaine de l’IA ?
Les ASICs sacrifient la flexibilité pour une meilleure efficacité : conçus pour une tâche précise, ils offrent un meilleur rendement par watt et un coût inférieur par opération. Ils sont particulièrement attrayants pour de grands fournisseurs cloud qui exécutent toujours le même type de charge à grande échelle.
Qu’est-ce qu’une NPU dans un smartphone ou un ordinateur ?
Une NPU (Neural Processing Unit) est un accélérateur intégré dans le processeur du dispositif, destiné à exécuter localement des modèles de IA. Elle permet des fonctions comme la photographie avancée, les assistants intelligents ou la traduction en temps réel, sans dépendre du cloud, ce qui réduit la latence et améliore la confidentialité.
Un concurrent peut-il détrôner NVIDIA sur le marché des puces IA ?
Théoriquement oui, mais cela ne se limite pas à la performance brute. Il faut aussi égaler son écosystème logiciel (CUDA), son réseau de partenaires et sa capacité à opérer à grande échelle. Ainsi, la stratégie de nombreux géants consiste souvent à associer les GPU NVIDIA à des puces sur-mesure, pour garder plus de contrôle sur les coûts et les charges de travail.
Source : cnbc