Dans une démarche qui renforce son ambition de réduire sa dépendance extérieure et de gagner du terrain sur le marché national des accélérateurs, Huawei a dévoilé lors de Huawei Connect 2025 une feuille de route pour ses puces d’intelligence artificielle s’étendant jusqu’en 2028. Selon un rapport de MyDrivers sur la présentation, ce plan comprend plusieurs familles Ascend avec des gains substantiels en capacité de calcul et, surtout, un point d’inflexion : l’intégration de mémoire HBM de conception propre dans les nouveaux produits.
Le message est clair : une compétitivité “domestique” pour répondre à la demande chinoise en calcul d’IA avec des solutions “made in China”. Celles-ci se positionnent en alternative face à des offres telles que NVIDIA H20, sur le marché local. La nouveauté ne réside pas uniquement dans la performance : Huawei vise une souveraineté technologique en contrôlant ses composants clés, en particulier la HBM (mémoire à haute bande passante), traditionnellement dominée par quelques fournisseurs mondiaux.
Ascend 950PR : point de départ avec HBM propre et focus sur l’inférence
La première étape de ce plan est le Ascend 950PR, successeur du Ascend 910C. Cette puce marque la transition vers une architecture interne intégrant la HBM de Huawei. En termes de spécifications, le 950PR promet :
- Précision faible supportant jusqu’à FP8, avec des performances de 1 PFLOPS en FP8 et 2 PFLOPS en FP4.
- Interconnexion à 2 TB/s entre composants, essentielle pour l’évolutivité des charges IA modernes.
- Mémoire HBM “HiBL 1.0” avec 128 GB de capacité et 1,6 TB/s de bande passante.
Huawei positionne le 950PR comme accélérateur orienté inference, optimisé pour le pre-filling (phase initiale de fourniture du contexte dans de grands modèles) et les systèmes de recommandation. La lecture stratégique est claire : commencer par ce qui constitue actuellement la majorité de la consommation massive de services IA dans le cloud et en entreprise — l’inférence à grande échelle — et garantir lors de cette phase le déploiement de la mémoire propriétaire.
HBM “fabriquée par Huawei” : de HiBL 1.0 à HiZQ 2.0
Le progrès technique majeur réside dans la HBM de conception propre. Huawei annonce une première génération “HiBL 1.0” pour le 950PR (128 GB, 1,6 TB/s) et prévoit une seconde génération “HiZQ 2.0” avec 144 GB et 4 TB/s. Intégrer une HBM de marque propre dans un accélérateur permet de réduire la dépendance à quelques fournisseurs et d’optimiser sur-mesure les relations entre bande passante, latence, consommation et format du package.
Sur le marché, cette étape est stratégique : la HBM devient la monnaie d’échange en IA générative. La puissance brute (FLOPS) est importante, mais la mémoire et la bande passante déterminent la quantité de fenêtres contextuelles et le nombre de requêtes simultanées qu’un cluster peut traiter. Si Huawei parvient à stabiliser la production et la performance de ses HiBL/HiZQ, elle gagnera en flexibilité pour ajuster prix, délai et scalabilité dans ses systèmes Ascend.
950DT (Q4 2026) : le tournant de l’entraînement
Le deuxième jalon de la gamme 950 est le Ascend 950DT, prévu pour fin 2026. Contrairement au 950PR, ce modèle se specialize dans l’entraînement, adoptant la HBM HiZQ 2.0 (144 GB, 4 TB/s), permettant d’avoir un débit mémoire accru et une meilleure alimentation des cœurs de tenseur lors de charges prolongées et distribuées.
Cette séparation entre inférence (950PR) et entraînement (950DT) permet de segmenter le silicium, la mémoire et le réseau en fonction des usages, plutôt que d’adopter un design “tout-en-un”. Ce modèle d’approche, déjà observé ailleurs, ajuste profils thermiques, scheduler et modes de précision (FP8/FP4) pour maximiser le débit dans chaque scénario spécifique.
960 (Q4 2027) : plus de mémoire, plus de bande passante, plus de FLOPS
La feuille de route se poursuit avec le Ascend 960, prévu pour fin 2027, apportant une amélioration globale :
- Interconnexion portée à 2,2 TB/s.
- Mémoire effective portée à 288 GB (probablement avec HiZQ 2.0) et bande passante mémoire de 9,6 TB/s.
- Performance calculatoire atteignant 2 PFLOPS (FP8) et 4 PFLOPS (FP4).
Ce déplacement indique deux orientations : d’abord, une double envie d’élargir le “goulot d’étranglement” mémoire, et ensuite, une dynamique continue de calcul à basse précision (FP8/FP4), où l’industrie tire de meilleurs ratios de performance par watt, sans compromettre la qualité en entraînement ou inférence pour de nombreux modèles.
970 (2028) : le “gigant” à trois ans
Le dernier jalon est le Ascend 970, prévu pour 2028. Huawei évoque “des améliorations substantielles” en mémoire et calcul, sans détails précis. On peut s’attendre à un nouveau palier en capacité de HBM, bande passante, interconnexion, et FLOPS en FP8/FP4. La clé sera de voir comment cette puissance sera traduite en coût total de possession (TCO) : densité par rack, efficacité énergétique, maintenance.
Lecture stratégique : une démarche “de l’intérieur vers l’extérieur”
Au-delà des chiffres, la feuille de route repose sur un is de conception stratégique “de l’intérieur vers l’extérieur” :
- HBM propre en priorité : maîtriser la mémoire pour sécuriser l’approvisionnement et fixer les prix.
- Inference d’abord, entraînement plus tard : assurer capacité immédiate de déploiement pour la demande présente (950PR) et renforcer l’entraînement avec plus de mémoire et de bande (950DT, 960).
- Croissance par étapes : des itérations annuelles ou bisannuelles permettant d’apprendre de chaque cycle et de diluer le risque.
- Soutien au marché domestique : en phase avec la nécessité d’une capacité de calcul nationale pour l’IA générative et les services digitaux, avec Ascend comme pilier central de l’architecture.
Positionnement face à la concurrence : où se placent les Ascend
Huawei n’est pas nouveau dans le domaine de l’accélération IA. Ses Ascend ont déjà trouvé leur place sur des marchés où NVIDIA domine grâce à ses écosystèmes CUDA et TensorRT. La nouveauté de cette feuille de route réside dans une souveraineté renforcée (mémoire propre, stack interne) et une orientation locale pour la cloud, le gouvernement et l’industrie.
- Face à NVIDIA H20 : le message vise à concurrencer en Chine avec des produits “made in China” affichant un bon rapport perf/watt en FP8/FP4 et une bande mémoire élevée.
- Axé logiciel : le succès ne dépend pas uniquement du silicium ; il faut aussi un écosystème robuste comprenant toolchains, compilateurs, frameworks et librairies. Huawei travaille historiquement avec son environnement CANN.
- Interconnexion : avec 2–2,2 TB/s en fabric, la scalabilité dépend de faibles latences, topologies sans blocages et orchestration. Ce point est aussi critique que la performance brute en FLOPS.
Risques et défis : emballage, énergie et maturité de l’écosystème
Le plan est ambitieux mais réaliste : il reconnaît que la compétition ne se limite pas au FLOPS. Plusieurs défis émergent :
- Enveloppement avancé et gestion thermique : la HBM propriétaire implique un stacking sophistiqué, du crosstalk, de l’intégrité de signal et un conception d’interposer. Maintenir 9,6 TB/s avec 288 GB demande une ingénierie précise de l’encapsulation et de la gestion thermique.
- Disponibilité et performance soutenue : atteindre des volumes avec un yield compétitif est un vrai défi. La variabilité de la fabrication peut impacter les prix, les délai et le binning.
- Écosystème logiciel : l’adoption massive requiert une compatibilité avec les frameworks populaires, des optimiseurs, des kernels spécialisés et des APIs de compilation efficiente.
- Consommation d’énergie et densité : plus de bande passante et mémoire signifient généralement une consommation accrue. La réussite dans les centres de données dépendra de l’efficience électrique et de la densité par U.
- Marché global versus local : le plan privilégie la Chine, où la souveraineté du calcul est une priorité nationale. Au-delà, les restrictions réglementaires et de l’approvisionnement influenceront la trajectoire.
Comprendre FP8 et FP4 (et leur importance)
L’accent mis sur FP8 et FP4 n’est pas anodin. L’industrie évolue vers des précisions plus faibles, tout en maintenant une qualité équivalente en entraînement et inférence grâce à des techniques telles que quantization, loss scaling et calibration. Résultat : plus de performance par watt et meilleure utilisation de la mémoire. En affichant 1 PFLOPS en FP8 et 2 PFLOPS en FP4 pour le 950PR, Huawei indique que ses moteurs vectoriels sont conçus pour répondre aux exigences du marché actuel des grands modèles de langage (LLMs), où FP8 devient courant pour l’entraînement et FP4/INT4 pour l’inférence haute performance.
Les étapes vers 2028 : une escalier à trois niveaux
- 2025–2026 : établir la capacité à l’inférence à grande échelle avec le 950PR (HBM HiBL 1.0) et initier l’entraînement avec le 950DT (HBM HiZQ 2.0).
- 2027 : augmenter le niveau avec le 960 (plus de mémoire et de bande passante, 2 PFLOPS FP8, 4 PFLOPS FP4).
- 2028 : le Ascend 970 en synthèse, avec des améliorations “notables” en capacité de calcul et mémoire.
Chaque étape vise à accroître la capacité mémoire effective et bande passante, car sans cela, le seul affichage en FLOPS ne suffit pas. Ce fil conducteur réaffirme la stratégie de Huawei : “HBM d’abord”.
Conclusion : une souveraineté memoire pour rester compétitif dans l’ère de l’IA
Ce qui est primordial dans cette annonce, ce n’est pas une seule valeur, mais effectivement la structure du plan. Huawei propose une feuille de route crédible et progressive, combinant évolution du calcul et contrôle sur la mémoire — la ressource la plus rare dans la fièvre IA — avec une segmentatio n claire entre inférences et entraînement.
En respectant ses délais et en maintenant le rythme de son développement de HBM propre (de HiBL 1.0 à HiZQ 2.0), Huawei pourrait sécuriser sa capacité sur le marché chinois et créer des avantages en coût dans ses clusters Ascend. La question reste néanmoins ouverte sur le volet logiciel et l’industrialisation : deux éléments qui, historiquement, différencient une feuille de route ambitieuse d’un déploiement industriel capable de transformer le marché.
Pour l’instant, le signal est puissant : avec Ascend 950PR, 950DT, 960 et 970, Huawei trace une ascension vers 2028 avec 1–2 PFLOPS FP8, 2–4 PFLOPS FP4, jusqu’à 9,6 TB/s de bande passante sur le 960, interconnexion de 2–2,2 TB/s, et sa HBM propriétaire évoluant de 128 à 144 et 288 GB dans la gamme intermédiaire. Dans une décennie marquée par la pénurie mémoire et la voracité des grands modèles, **contrôler la HBM est une véritable avantage stratégique**.
Questions fréquentes
Qu’est-ce que le Huawei Ascend 950PR et à quoi sert-il ?
Le Ascend 950PR est le successeur du 910C et premier accélérateur de la série à intégrer une HBM de conception propre (HiBL 1.0, 128 GB, 1,6 TB/s). Il offre 1 PFLOPS en FP8 et 2 PFLOPS en FP4, avec 2 TB/s d’interconnexion, principalement destiné à l’inférence (par exemple, pré-filling en LLM ou systèmes de recommandation).
Quelle différence entre le 950DT et le 950PR ?
Le 950DT est conçu pour l’entraînement et devrait arriver en Q4 2026 avec la HBM HiZQ 2.0 (144 GB, 4 TB/s). Il offre plus de bande passante et de capacité pour supporter de longues pipelines d’entraînement.
Qu’apporte le Ascend 960 (Q4 2027) ?
Il augmente l’interconnexion à 2,2 TB/s, la mémoire active à 288 GB (avec probable HiZQ 2.0) et la bande passante mémoire à 9,6 TB/s. En calcul, il vise 2 PFLOPS (FP8) et 4 PFLOPS (FP4).
Que sait-on du Ascend 970 prévu pour 2028 ?
Huawei évoque “des améliorations notables” en mémoire et en performance, sans chiffres officiels. On prévoit une nouvelle étape avec probablement davantage de capacité HBM, bande passante, interconnexion et FLOPS FP8/FP4. La difficulté sera de transposer cette puissance en un coût total de possession réduit (TCO) : densité par rack, efficacité énergétique et maintenance.
La HBM d’Huawei remplace-t-elle celle de fournisseurs tiers dès maintenant ?
Huawei a annoncé la HiBL 1.0 (128 GB, 1,6 TB/s) pour le 950PR et la HiZQ 2.0 (144 GB, 4 TB/s) pour le 950DT et la suite. L’objectif est de réduire la dépendance et d’optimiser sur mesure. Le rythme d’adoption dépendra de la production, des performances et de la validation.
Comment cette démarche se positionne-t-elle face à NVIDIA H20 ?
Sur le marché intérieur chinois, Huawei présente Ascend comme une alternative locale. La comparaison exacte dépend de multiples facteurs : logiciel, réseau, HBM, efficacité, TCO. Le vrai défi sera de proposer une solution cohérente “clé en main”.
Pourquoi FP8 et FP4 sont-ils si importants ?
Parce qu’ils permettent d’atteindre plus de performance par watt et un meilleur usage mémoire sans compromettre la qualité en entraînement ou inférence. Le 950PR chiffre déjà 1 PFLOPS en FP8 et 2 PFLOPS en FP4; le 960 double ces chiffres, illustrant l’orientation vers des précisions plus faibles mais très efficaces.
Quels sont les principaux défis du plan ?
L’emballage de la HBM, la gestion thermique, l’écosystème logiciel, la consommation électrique par rack, et la montée en volume de fabrication. Le vrai succès se jugera sur le coût, les délais, et l’adoption industrielle.
Source : wccftech