AMD met Vera Rubin en jaque : los Instinct MI455X y MI430X prometen paridad en FP4/FP8, misma ancho de banda… y el doble de memoria HBM4

AMD met Vera Rubin en jaque : los Instinct MI455X y MI430X prometen paridad en FP4/FP8, misma ancho de banda… y el doble de memoria HBM4

AMD a tracé une feuille de route ambitieuse pour 2026–2027, qui vise directement le cœur de la domination de NVIDIA dans l’IA. La nouvelle SÉRIE Instinct MI400 —avec les MI455X et MI430X prévus pour 2026— et la famille MI500 en 2027 représentent, selon les termes et chiffres de l’entreprise, un changement de cap : équilibrer la performance brute en FP4 et FP8 face à Vera Rubin, équilibrer le débit de bande passante par accélérateur et dépasser la capacité mémoire avec HBM4. Le message est clair : la bataille se déplace du seul chip au rack et du FLOP au flux de données.

La clé ne consiste pas seulement à « courir plus vite » ; il faut déplacer plus et mieux : plus de VRAM par GPU, plus de bande passante interne, plus de escalade en rack et plus de standardisation pour assurer une intégration cohérente du CPU, GPU et mémoire. Si AMD parvient à réaliser concrètement son plan — et si le marché suit — 2026 pourrait inaugurer une véritable compétition à l’échelle système, et non seulement de silicium.


MI455X et MI430X : les deux faces de la famille MI400

AMD divise la prochaine génération en deux profils complémentaires :

  • Instinct MI455X : destiné à l’entraînement et à l’inférence à grande échelle, avec une focalisation sur performance en IA et extension horizontale au niveau du rack et du centre de données.
  • Instinct MI430X : orienté vers IA souveraine et HPC, où le FP64 hardware et la cohérence numérique comptent autant que la vitesse en formats basse précision.

Ces deux accélérateurs partagent une architecture chiplet avec un packaging 3,5D (CoWoS-L) et HBM4. Cette combinaison — offrant une zone de calcul efficace, des latences inter-die plus faibles et un buss de mémoire» très performant — place AMD parmi les rares fabricants capables d’intégrer à cette échelle.

Les chiffres qui marquent le saut

Selon les objectifs d’AMD, la SÉRIE MI450 (coeur de la famille MI400) vise, de façon générale, à :

  • Jusqu’à 40 PFLOP en FP4 et 20 PFLOP en FP8 par accélérateur.
  • 432 GB de HBM4 par GPU avec un débit de 19,6 TB/s, presque le double de la génération MI300.
  • 3,6 TB/s de scale-up (inter-nœud) et 300 GB/s de scale-out (inter-nœud) en débit de bande passante efficace.

AMD accompagne ces chiffres d’une comparaison à l’échelle rack : un MI450 “Helios” avec 72 GPU offrirait 1,5 fois plus de mémoire totale et 1,5 fois plus de bande passante en scale-out qu’un rack équivalent avec Vera Rubin “Oberon” — tout en maintenant, selon AMD, une parité de performance brute en FP4/FP8. Si confirmé, cela constituerait un coup dur à une des armes favorites de NVIDIA : capacité mémoire et interconnexion à grande échelle.


Du accélérateur au rack : Helios, SerDes de nouvelle génération et cohérence avec CXL

La performance en IA ne dépend plus uniquement du FLOP par chip. La réseau du rack devient primordial. AMD joue cette partie avec trois atouts :

  1. Helios : une architecture de rack centrée sur la cohérence unifiée entre GPU, CPU et mémoire CXL, conçue pour minimiser les points de congestion quand les modèles deviennent trop volumineux pour la mémoire locale et nécessitent sharding ou une métamixte mémoire (GPU + CXL).
  2. SerDes et PCIe : des liaisons SerDes à 224 GB/s couplées à PCIe 7.0 pour les générations futures, plus un Infinity Fabric de cinquième génération qui homogénéise le scaling _scale-in/scale-up/scale-out et agrège des standards.
  3. Écosystème ouvert : compatibilité avec UALink, CXL 3.1 et UCIe sur PCIe 6.0, permettant de mélanger et étendre le système sans dépendre de solutions propriétaires. La promesse : éviter le verrouillage fournisseur, réduire les coûts et habiliter des architectures hybrides (CPU + GPU + mémoire étendue via CXL) avec cohérence fine.

Au fond, l’idée est simple : si le flux de données est amélioré, le FLOP devient plus efficace. C’est dans cette optique qu’AMD cherche à rivaliser avec NVIDIA, qui depuis longtemps défend son leadership avec NVLink/NVSwitch.


Formats FP4/FP8 et “mémoire pour tous” : pourquoi c’est crucial

La parité revendiquée face à Vera Rubin en FP4/FP8 est moins une question de précision que d’efficacité : le FP4 facilite une inférence pour des LLM massifs avec une consommation modérée, et le FP8 accélère aussi bien l’entraînement que le tuning et l’inférence avec un bon rapport performance/précision. En ajoutant plus de VRAM par accélérateur (432 GB) et un débit de bande passante effectif supérieur, le batch augmente et la file d’attente diminue : moins de offload, moins de coûts liés à la mémoire froide (CXL ou disque), plus de tokens/sec.

Pour les modèles limités par mémoire — qui deviennent la majorité — la mémoire est maîtresse. Et pour les charges combinant RAG, vector DB et génération, les 19,6 TB/s par GPU sont une véritable essence : elles alimentent le calcul sans l’étouffer.


Logiciels et disponibilité : l’autre “50 %” de la réussite

Ni AMD ni personne ne gagne uniquement avec du hardware. La société mise sur un ROCm en pleine croissance avec un décollage 10x en téléchargements, ainsi que sur des améliorations en performance et fonctionnalités à chaque version. Par ailleurs, elle prévoit le lancement de Helios en 3T 2026 avec MI450 à l’échelle rack, puis MI500 en 2027, la génération qualifiée de “compute, memory et interconnexion de dernière génération”.

Les acheteurs et opérateurs d’IA à grande échelle ont deux éléments en pointillés :

  • Time-to-production logiciel : compatibilité avec PyTorch et l’écosystème, vitesse des kernel critiques, qualité du compilateur, débogueurs, profiler et support des bibliothèques (attention, matmul, communications et opérateurs de pointe).
  • Délais et approvisionnement : sortir en production HBM4, CoWoS-L 3,5D, SerDes 224 GB/s et PCIe 7.0 pour la clientèle est une épreuve industrielle. Le calendrier 2026–2027 est ambitieux et le marché est sensible aux retards.

Et la MI500 de 2027 ?

AMD la présente comme un saut important en calcul, mémoire et interconnexion, épaulé par une nouvelle génération de HBM et des topologies plus standardisées. Sans chiffres publics, le schéma est déjà esquissé : empaquetage 3,5D au maximum, plus de mémoire par GPU, cohérence étendue et standards dans le réseau. La stratégie reste la même : du accélérateur au système et du FLOP au flux.


Ce que cela signifie pour les architectes et les planificateurs de capacité

  1. Planifier par mémoire et par réseau : le “calcul suffisant” s’obtient d’abord par plus de mémoire et de débit, avant de s’appuyer sur la seule puissance CPU ou GPU. Avec 432 GB et 19,6 TB/s, les tailles de batchs réalistes peuvent s’accroître, mais c’est maintenant la unité de conception qu’il faut considérer : le rack.
  2. Adopter la cohérence (CXL + UALink + UCIe) : Si AMD tient ses promesses, la métrologie entre CPU et LLM en mémoire CXL devient une topologie normale dans les hyperscalers et les entreprises.
  3. Le TCO évolue : moins de offload et moins de round-trips hôte diminuent latences et pics thermiques ; plus de VRAM par GPU augmente le coût par accélérateur, mais réduit le coût par token ou par boucle en évitant les arrêts de flux de données.
  4. Standardisation concrète : si UALink, CXL 3.1 et UCIe deviennent opérationnels, la couche réseau et la couche mémoire s’ouvrent à plusieurs vendeurs. Cela pousse NVIDIA à rendre son stack plus flexible, notamment en périphérie GPU.

Où se joue encore la partie

  • Ecosystème logiciel : CUDA reste la norme de facto ; ROCm progresse, mais la « portabilité » de millions de développeurs met du temps à se concrétiser. La parité FP4/FP8 en papier ne garantit pas que les modèles rendent de façon identique en production.
  • Sourcing HBM : le HBM4 en volume constitue le principal goulot d’étranglement susceptible de déterminer quel rack sera déployé en premier.
  • Énergie et refroidissement : augmenter la capacité de calcul avec plus de VRAM intensifie les enjeux thermiques. Le CAPEX thermique par rack (liquide direct, rear-door, immersion) sera une variable majeure dans la comparaison avec Vera Rubin.
  • Calendrier : 2026 approche à grands pas pour des contrats en négociation. Tout retard pourrait bouleverser le déploiement.

Verdict provisoire

AMD ne promet pas de gagner en FLOP; elle promet de l’atteindre en formats cruciaux (FP4/FP8) et de surpasser son concurrent sur ce qui compte le plus : mémoire et réseau de rack. Avec un emballage 3,5D et du HBM4, en favorisant la cohérence (CXL, UALink) et l’ouverture à l’interconnexion (UCIe, PCIe 6.0/7.0), si Helios et MI450 arrivent à temps et avec un logiciel au niveau, 2026 pourrait devenir la première année depuis longtemps où les grands opérateurs pourront comparer racks AMD et NVIDIA de visu, en termes de capacité totale et de coût par token/boucle, et pas seulement par TFLOP de fiche technique.

Le MI500 de 2027 prolonge cette ambition : du chip au système. Et si le marché juge par flux de données et topologies ouvertes, AMD aura déplacé la partie dans le registre qui lui est le plus favorable.

le dernier