La course à l’optimisation de chaque watt et millimètre de silicium dans les centres de données se joue de plus en plus au niveau des connexions. Posséder des GPU puissants et des CPU dernier cri ne suffit pas si les données ne circulent pas à une vitesse adéquate entre eux. C’est dans ce contexte que s’inscrit le lancement officiel de CXL 4.0, la nouvelle version du standard Compute Express Link, qui s’annonce comme une pièce maîtresse dans l’infrastructure de l’intelligence artificielle et du calcul haute performance.
Le Consortium CXL, organisme promoteur de cette norme ouverte, a publié la spécification 4.0 le 18 novembre 2025, en parallèle de démonstrations lors du salon Supercomputing 2025. La tendance est claire : CXL est passé du statut de promesse à celui de nécessité, et cette nouvelle itération accélère encore ce mouvement.
Qu’est-ce que CXL et pourquoi est-ce crucial désormais ?
Compute Express Link est une liaison à très haute vitesse conçue pour relier CPUs, accélérateurs (GPU, ASIC, FPGA), mémoire et autres dispositifs intelligents tout en assurant une cohérence mémoire et des latences très faibles. Il repose physiquement sur la même infrastructure que PCI Express, mais ajoute un protocole spécifiquement conçu pour partager et étendre la mémoire entre différents composants sans duplications inutiles.
Dans un monde où la formation d’un modèle d’IA requiert la mise en réseau de dizaines ou centaines de GPU, et où la mémoire HBM est devenue une ressource aussi critique que rare, la capacité à “dégrouper” et “pooliser” la mémoire — ainsi que la connecter comme un seul système cohérent — revêt une importance capitale, autant que l’augmentation des téraflops.
Double bande passante : jusqu’à 128 GT/s sans pénaliser la latence
La principale nouveauté de CXL 4.0 est une augmentation spectaculaire de la vitesse. La spécification double la débits des données, passant de 64 GT/s pour CXL 3.x à 128 GT/s, tout en conservant la modulation PAM4 et la structure basée sur des flits (unités de transfert) introduite dans la génération précédente.
Concrètement, cela signifie le double de capacité de transfert sur une même largeur de lien, sans augmentation de latence ni consommation supplémentaire. Le consortium revendique un niveau de fiabilité extrême : moins de 10⁻³ de taux de défaillance par milliard d’heures de fonctionnement (FIT <10⁻³), grâce à l’utilisation de correction d’erreurs directe (FEC) et de CRC hérités de CXL 3.0.
Le standard introduit également le concept de largeur native x2 et supporte jusqu’à quatre réémetteurs (retimers) par lien, permettant d’étendre la portée physique et la “ramification” de la topologie sans compromettre l’intégrité du signal. Pour les concepteurs de serveurs et de commutateurs pour centres de données, cela ouvre la voie à des architectures longues et complexes — racks remplis de nœuds, châssis modulaires, backplanes denses — à un coût maîtrisé.
Ports regroupés : plusieurs liens physiques, un seul comportement
Un terme clé dans la documentation de CXL 4.0 est “Ports regroupés” (“Bundled Ports”). C’est l’innovation architecturale qui offre le plus de potentiel à court terme.
Jusqu’ici, chaque port CXL était considéré comme une entité indépendante : une CPU se connectait à un dispositif via un lien logique associé à un port physique spécifique. Avec les Ports regroupés, la norme permet de fusionner plusieurs ports physiques d’un même appareil en un seul port logique. Le système d’exploitation perçoit toujours “un seul dispositif”, mais la bande passante est répartie entre plusieurs liens.
Le white paper du consortium donne un exemple : avec un lien x16 à 128 GT/s, un port regroupé peut atteindre 768 Go/s dans chaque direction, soit environ 1,5 To/s de bande passante agrégée en duplex complet entre CPU et accélérateur. Ces chiffres concernent clairement les GPU et ASIC haut de gamme pour IA et HPC.
De plus, les ports regroupés sont optimisés pour fonctionner en mode de flit de 256 octets, sans avoir à supporter l’ancien format de 68 octets, ce qui simplifie le hardware et réduit les overheads. Un port du bundle doit toutefois rester compatible avec l’ancien format pour assurer la rétrocompatibilité.
Pour les exploitants de centres de données, cette agrégation logique permet d’augmenter considérablement la bande passante effective entre CPU et accélérateurs, sans changer le logiciel ni augmenter la fréquence interne. Dans un écosystème où l’on parle déjà de “fermes GPU” et de “fils mémoire” partagés, cette simplicité peut faire toute la différence.
Au-delà des performances : mémoire plus robuste et moins de coupures
CXL ne se limite pas à la vitesse. La version 4.0 renforce considérablement les capacités de maintenance et de résilience de la mémoire, essentielles lorsque l’on gère d’importants pools partagés entre plusieurs hôtes.
La nouvelle spécification introduit des mécanismes de rapport plus précis pour les erreurs corrigibles en mémoire volatile et pour les événements lors des cycles de “patrol scrub” (nettoyage périodique des cellules défectueuses). Ainsi, le système peut détecter et réagir plus finement aux patterns d’erreurs croissants, et décider plus judicieusement quels modules ou plages de mémoire doivent être isolés.
Une autre amélioration clé est la possibilité pour l’hôte d’exécuter des opérations de Post Package Repair (PPR) lors du démarrage du dispositif, permettant de réparer ou remapper les cellules défectueuses avant la mise en service, réduisant ainsi les temps d’indisponibilité et évitant que certains défauts ne se manifestent sous charge.
De plus, le standard offre des fonctions de “memory sparing” durant le démarrage et en opérations, réservant de la capacité de mémoire de secours ou réaffectant des données sans arrêt de service. Pour les grands datacenters cloud, où arrêter un cluster d’IA peut coûter des millions, ces outils RAS (Fiabilité, Disponibilité, Maintenabilité) sont aussi cruciaux que la capacité en gigaoctets/sec.
Compatibilité totale descendante : clé pour l’adoption massive
Le consortium a soigneusement veillé à la compatibilité. CXL 4.0 reste parfaitement compatible avec les versions 3.x, 2.0, 1.1 et 1.0. Les fabricants peuvent donc introduire des dispositifs et hôtes compatibles avec la nouvelle norme sans rompre l’écosystème existant.
Tel que prévu, la transition sera progressive, à l’image de PCIe : initialement, des CPUs et cartes mères supportant la version 4.0 tireront parti des Ports regroupés et de la nouvelle vitesse lorsqu’elles seront connectées à des appareils de dernière génération, tout en restant compatibles avec des cartes et modules plus anciens.
Pour les opérateurs, cette compatibilité assure une intégration sans hypocrisie dans des infrastructures déjà déployées, évitant de devoir tout redessiner pour faire évoluer le système.
IA générative, HPC et cloud : qui bénéficie de CXL 4.0 ?
Bien que la norme soit agnostique quant aux charges de travail, elle répond clairement aux besoins de l’IA générative, du calcul haute performance et du cloud à très grande échelle :
- Entraînement des modèles d’IA
Les grands modèles de langage et de vision nécessitent l’agrégation de dizaines de GPU à mémoire HBM limitée. CXL permet de rendre accessible une mémoire supplémentaire via des modules externes, et de la partager entre nœuds, résolvant ainsi certains goulets d’étranglement et offrant une plus grande flexibilité. - Dégrouplement de la mémoire dans les datacenters
De plus en plus d’opérateurs envisagent des architectures où la mémoire devient un composant réseau, pas uniquement attaché à un serveur. CXL 4.0, avec son débit accru et ses améliorations RAS, constitue le tissu d’interconnexion idéal pour ces “pools mémoire” partagés. - HPC classique et simulations scientifiques
Les applications comme la dynamique des fluides, la climatologie ou la bioinformatique profitent de l’échange de gros volumes de données entre CPU, accélérateurs et stockage. Réduire les latences et assurer des chemins de données cohérents maximise le retour sur investissement hardware. - Cloud public et privé
Les hyperscalers et fournisseurs peuvent utiliser CXL pour offrir des machines virtuelles ou bare-metal plus flexibles, avec des ratios mémoire par CPU moins rigides et une capacité d’adaptation en fonction de la charge.
Le futur intrication des données
Avec CXL 4.0, le consortium ne se limite pas à augmenter la vitesse : il redéfinit une partie de l’architecture du standard pour l’aligner avec les nouvelles topologies en émergence dans les centres de données. La modularité cesse d’être un simple argument marketing pour devenir une exigence technique : CPUs, GPUs, mémoires et dispositifs intelligents se répartissent physiquement, mais doivent fonctionner comme un système cohérent unique.
Reste à voir comment ces innovations se traduiront concrètement dans des produits, et quels délais les grands fabricants prévoient pour intégrer CXL 4.0 dans leurs feuilles de route. Sur le papier, le message est clair : l’interconnexion n’est plus la petite sœur du processeur, mais occupe désormais le devant de la scène.
Dans un contexte où la performance dépend désormais autant de la gestion efficace des données que de la puissance brute des cœurs, CXL 4.0 s’impose comme le standard qui marquera la prochaine décennie dans le design des centres de données.
Questions fréquentes sur CXL 4.0
En quoi CXL 4.0 diffère-t-il de CXL 3.0 ?
La différence principale réside dans le doublement de la bande passante par lien, passant de 64 GT/s à 128 GT/s. Elle introduit aussi les Ports regroupés pour fusionner plusieurs liens physiques en un seul port logique, supporte nativement les liens x2, jusqu’à quatre réémetteurs (retimers) par lien, et apporte des améliorations majeures pour la maintenance et la résilience mémoire (PPR, mémoire spares, rapport d’erreur granulaire).
Le CXL 4.0 est-il compatible avec le matériel d’anciennes versions ?
Oui. La norme assure une compatibilité totale avec CXL 3.x, 2.0, 1.1 et 1.0. Un dispositif CXL 4.0 pourra fonctionner avec des hôtes et autres périphériques des générations précédentes, mais ses nouvelles fonctionnalités seront exploitées seulement lorsqu’il y aura support réciproque au niveau version 4.0.
Quel impact sur la mémoire des centres de données ?
CXL facilite l’extension et le partage de mémoire entre plusieurs hosts et accélérateurs. La version 4.0 améliore la détection et la correction d’erreurs, introduit des opérations de réparation (PPR) lors du démarrage, et propose des fonctions de mémoire de secours (“memory sparing”), contribuant ainsi à une disponibilité accrue et à moins d’arrêts imprévus.
Quand seront disponibles les premiers produits compatibles CXL 4.0 ?
Le consortium a publié la spécification et présenté des démonstrations lors de Supercomputing 2025. La prochaine étape consiste pour les fabricants de CPUs, GPUs, commutateurs et serveurs à intégrer cette norme dans leurs produits. On peut raisonnablement s’attendre à voir apparaître les premiers systèmes commerciaux dans les prochains cycles d’évolution hardware pour l’IA et le HPC.
via : CXL