2026 s’annonce comme l’« année de l’ASIC » dans le cloud, mais la mémoire pourrait freiner le déploiement

Le marché mondial des puces IA connaîtra une croissance significative jusqu'en 2029

La course à la réduction des coûts et à l’extension de la puissance de calcul pour l’intelligence artificielle pousse les principaux fournisseurs de services cloud — et leur écosystème de partenaires — vers une nouvelle phase : plus de racks avec des accélérateurs sur mesure (ASIC) et une dépendance moindre aux hardware standards. La logique est claire : lorsque les volumes d’inférence augmentent, l’efficacité par euro et par watt devient prioritaire ; et dans ce contexte, les conceptions spécifiques (TPU, chips intégrés, accélérateurs personnalisés) gagnent en attractivité face aux solutions généralistes.

Dans ce contexte, plusieurs sources du secteur annoncent un fort rebond des livraisons d’ASIC pour le cloud en 2026, avec Broadcom remportant de grands projets de production avec plusieurs fournisseurs de services cloud (CSP), et parallèlement, des entreprises taïwanaises de conception et de backend telles que MediaTek, Alchip et GUC intégrant de nouveaux produits en production de masse. L’objectif : accélérer le déploiement de racks « ASIC-first » sans attendre les cycles plus longs du hardware traditionnel.

Le tournant : le secteur passe de l’entraînement à l’inférence (et aux agents)

Ce changement profond n’est pas seulement technologique, mais aussi économique. TrendForce explique qu’après une phase dominée par l’entraînement de grands modèles à l’aide de serveurs GPU + HBM, depuis la seconde moitié de 2025 le marché se recentre sur la service d’inférence (Copilot, Gemini, applications basées sur LLaMA, entre autres), avec une importance croissante des agents IA comme vecteur de monétisation. Cette transition fait que la demande ne se concentre plus uniquement sur des racks « pur IA » : la pression augmente également sur des serveurs généralistes exécutant des tâches de pré/inférence et de stockage.

Parallèlement, l’investissement en capital suit cette dynamique. TrendForce prévoit que le capex combiné des cinq principaux CSP en Amérique du Nord (Google, AWS, Meta, Microsoft et Oracle) augmentera de 40 % en glissement annuel en 2026, en partie grâce à l’expansion de l’infrastructure, et en partie par la rénovation des serveurs acquis lors du boom 2019–2021.

La part des ASIC atteint des sommets… mais le véritable obstacle est ailleurs

Le chiffre le plus parlant pour illustrer cette tendance est la répartition des livraisons : TrendForce projette que les serveurs IA équipés d’ASIC représenteront 27,8 % des unités en 2026, un record depuis 2023, tandis que les systèmes équipés de GPU continueront de dominer avec 69,7 %.

Dans le monde des ASIC, Google apparaît comme un cas avancé : TrendForce souligne que son investissement dans ses ASIC propres dépasse celui de nombreux concurrents, notamment avec ses TPU (qui alimentent Google Cloud Platform), désormais aussi commercialisés auprès de clients externes comme Anthropic.

Jusqu’ici, la demande semble maîtrisée. Le vrai problème — et le risque opérationnel pour 2026 — réside du côté de l’offre : la mémoire.

Pourquoi la mémoire est devenue le facteur limitant

Dans les racks IA actuels, la capacité de calcul ne se traduit en performance réelle que si le système peut alimenter les données avec un large bande passante et une faible latence. Cela place la mémoire au centre :

  • DRAM hautes performances (notamment HBM sur plateformes GPU) pour transférer paramètres et activations.
  • SSD d’entreprise pour les pipelines de données, caches et stockage de vecteurs (RAG), avec des accès plus aléatoires et exigeants.

TrendForce prévoit que la demande soutenue pour des serveurs IA et du stockage d’entreprise maintiendra la croissance du marché de la mémoire jusqu’en 2027, avec des augmentations annuelles supérieures à 50 % et un pic de revenus estimé à cette période (842,7 milliards de dollars), après un 2026 également record (551,6 milliards). (Chiffres communiqués par TrendForce en janvier 2026 dans leur analyse du marché DRAM/NAND.)

Le secteur ASIC souligne un point critique : même si le volume de projets et la volonté de déploiement de racks sont plus clairs qu’il y a un an, la disponibilité de la mémoire pour 2026 — en termes de capacité et de calendrier — devient l’élément le plus incertain. En résumé : on peut avoir l’ASIC, la carte, le réseau et le rack ; mais sans la mémoire suffisante, la mise en production est ralentie.

Ce que cela signifie pour 2026 : des conceptions sur mesure et des contrats à long terme

Avec la mémoire comme ressource stratégique, les CSP et intégrateurs ajustent leur stratégie sur deux axes :

  1. Sécuriser l’approvisionnement : contrats pluriannuels pour 2027-2028 et accords de capacité pour amortir la volatilité à court terme.
  2. Optimiser l’architecture : conception visant à réduire la dépendance à la mémoire sans compromettre les SLA (hierarchies de cache, compression, batching lors de l’inférence, finesse de l’amélioration RAG, ou modifications dans le prompting et la gestion du contexte).

Pour l’écosystème des fournisseurs, cela signifie deux choses : d’une part, les concepteurs d’ASIC et leurs partenaires (EDA, emballage, substrates, validation) bénéficient d’une fenêtre de croissance claire. D’autre part, la mémoire et le stockage deviennent le « péage » déterminant qui pourra déployer en premier ou devra attendre.


Tableau 1 — La chaîne de valeur d’un rack IA avec ASIC (où le rythme peut ralentir ou accélérer)

Couche du système Ce qu’elle apporte Risque courant en 2026 Comment atténuer
ASIC (accélérateur) Coût/performance optimisé pour des charges spécifiques Ralentissement du volume et temps de mise à yield Co-conception avec le CSP, itérations rapides, validation préalable
CPU/hôte Orchestration, pré/post-inférence Saturation due à la croissance de l’inférence Renouvellement de la flotte, équilibrage, offload
Mémoire (DRAM/HBM) Largeur de bande et latence Allocation insuffisante ou coûteuse Contrats, priorisation, redimensionnement des profils
Stockage (SSD) Datasets, vecteurs, caches I/O et disponibilité en SSD d’entreprise JBOF/JBOD, escalade par couches, tiering
Réseau (Ethernet/InfiniBand) Échelle et east-west Panneaux d’engorgement liés au trafic d’inférence Topologies spécifiques, 400G/800G, gestion du trafic

Tableau 2 — Lecture rapide : pourquoi le “risque mémoire” reste critique même si l’ASIC est prêt

Signal Ce qu’il indique Impact direct
Augmentation des commandes d’ASIC La demande est déjà confirmée Pression accrue sur les nœuds avancés et le backend
Retard potentiel du déploiement sans raison de demande Le problème se situe dans l’offre La mémoire dicte le calendrier réel
Contrats signés pour 2027–2028 On anticipe une pénurie à court terme Le retard est compensé ultérieurement, mais 2026 perd en vitesse

Foire aux questions

Qu’est-ce qu’un ASIC cloud et pourquoi son adoption s’accélère-t-elle en 2026 ?
Un ASIC cloud est un accélérateur conçu pour des charges spécifiques (par exemple, l’inférence de modèles), généralement promu par un CSP pour optimiser le coût, la consommation et la performance par rapport à du hardware général. L’expansion de l’inférence et des agents IA rend cette efficacité encore plus cruciale.

Quelle part de marché peuvent atteindre les serveurs IA basés sur ASIC en 2026 ?
TrendForce prévoit que les serveurs IA avec ASIC représenteront environ 27,8 % des livraisons, un record récent, bien que les GPU resteront majoritaires.

Pourquoi la mémoire (DRAM/HBM et SSD d’entreprise) est-elle considérée comme le grand risque pour le déploiement ?
Car l’IA moderne exige de larges bande passante et un accès rapide aux données. Si la mémoire ne suit pas en volume ou en calendrier, le rack ne délivrera pas les performances attendues, entraînant des retards dans la mise en service, même si l’accélérateur est validé.

Quelles implications cela peut-il avoir sur les prix et la disponibilité des services IA en cloud ?
Si l’offre de mémoire et de stockage est tendue, le coût effectif par token ou consultation mettra plus de temps à baisser. Par ailleurs, les CSP prioriseront les charges plus rentables et renforceront la gestion de la consommation (quotas, throttling, niveaux de service).

Source : Jukan sur X

le dernier