Marvell veut exploiter la mémoire CXL avec compression en silicium

Marvell veut exploiter la mémoire CXL avec compression en silicium

La mémoire est devenue l’un des composants les plus coûteux et critiques de l’infrastructure d’intelligence artificielle. Il ne s’agit pas seulement de GPU manquants. Il manque des gigaoctets à proximité du processeur — modules DDR5 serveur, mémoire pour bases de données en temps réel, capacités pour l’inférence de grands modèles, et systèmes capables de gérer des recherches vectorielles sans faire exploser le coût par nœud. Dans ce contexte, Marvell propose une solution simple à expliquer mais difficile à implémenter efficacement : compresser la mémoire directement au niveau du contrôleur CXL.

Cette approche s’appuie sur la famille Structera X et Structera A, des dispositifs CXL conçus pour étendre la mémoire et accélérer la proximité des données. La société soutient que le principal goulot d’étranglement actuel ne peut pas être résolu simplement en ajoutant plus de DRAM, car cette mémoire est chère, rare, et la demande en IA la pousse à ses limites. La clé réside dans un module matériel spécifique, appelé Compression-Decompression Block (CDB), qui compresse les données lors de leur écriture en mémoire et les décompresse lors de leur lecture, sans intervention du processeur ni modification visible pour le système d’exploitation.

L’avantage économique est évident : si une charge de travail permet une compression à ratio 2:1, chaque gigaoctet physique peut contenir deux gigaoctets de capacité utile. Si le ratio est supérieur, les économies potentielles s’accroissent. En pleine période où le prix de la mémoire de serveur influence l’achat des machines, cette différence peut peser autant que le choix de la CPU ou du GPU.

CXL ne se limite pas à élargir la mémoire, il peut aussi en réduire le coût réel

Compute Express Link, ou CXL, autorise une connexion cohérente entre mémoire et accélérateurs via PCIe. Concrètement, cela ouvre la voie à l’extension de capacité au-delà des banques DDR traditionnelles, à la création de niveaux de mémoire, et plus encore dans ses versions avancées, vers des modèles de mémoire plus partagée ou décomposée.

Jusqu’ici, l’essentiel des discussions sur CXL portait sur l’augmentation de capacité dans des serveurs déjà saturés par les canaux traditionnels. Marvell veut aller plus loin : il ne suffit pas d’ajouter de la capacité physique, il faut aussi augmenter la capacité utile de cette mémoire, surtout quand beaucoup de données peuvent être compressibles.

Élément Ce qu’il apporte
CXL Extension de mémoire au-delà des canaux DDR classiques
Structera X Contrôleurs pour augmenter la capacité mémoire par serveur
Structera A Accélérateurs proches de la mémoire pour charges intensives
CDB Compression et décompression en silicium
LZ4 Algorithme sans perte, rapide et à faible latence
Mapping Multi-to-One Présente au système un plus grand espace mémoire virtuel que la RAM physique

Contrairement à la compression logicielle, cette solution déplace le coût vers le matériel dédié à l’intérieur du dispositif CXL. Lorsqu’une base de données, un moteur analytique ou une application compresse via le CPU, cela consomme des cycles et complexifie le logiciel. En déléguant cette tâche au silicium, Marvell vise à maintenir cette compression en ligne avec la bande passante mémoire, tout en la laissant hors du chemin de la CPU.

Le module CDB, pièce maîtresse de cette innovation

Le Compression-Decompression Block (CDB) n’est pas un logiciel ou un firmware à ajouter après coup. Il s’agit d’un composant matériel dédié, intégré directement dans les dispositifs Structera CXL. Son fonctionnement est transparent : le système écrit des données, le contrôleur les compresse avant de les stocker en DRAM; à la lecture, il les décompresse et fournit l’information au système comme si la mémoire était sans compression.

Marvell utilise une variante propriétaire de l’algorithme LZ4, réputé pour sa vitesse. LZ4 est couramment utilisé dans les bases de données, systèmes de stockage, moteurs analytiques et logiciels où la latence de décompression doit être faible. La stratégie n’est pas d’obtenir la compression maximale à tout prix, mais d’un bon compromis entre ratio, latence et bande passante.

Métrique annoncée Valeur
Algorithme Basé sur LZ4
Taille des pages 4 KB et 1 KB
Ratio maximal 64:1 sur pages entièrement zéro
Niveaux de réglage 0 à 3, configurable
Type de compression Sans perte
Visibilité pour le système Transparente pour CPU et OS

Ce ratio maximal de 64:1 est impressionnant, mais il faut l’interpréter avec précaution : il concerne des cas extrêmes, comme des pages entièrement composées de zéros. En pratique, la valeur utile dépendra du type de données — texte, code source, contenus Web, binaires, bases de données ou langage naturel — et du degré de compressibilité.

Quelle capacité utile peut-on espérer

Marvell publie des ratios pour différents types de données et compare avec la compression LZ4 effectuée côté système. Selon ses tests, Structera CDB atteint ou se rapproche de la performance de la compression logiciel, mais sans solliciter le CPU.

Type de donnée Ratio Structera CDB Ratio LZ4 logiciel
XML 2,75x 2,64x
Base de données (nci) 3,64x 3,65x
Code source (samba) 2,00x 2,07x
Contenu web (webster) 1,67x 1,65x
Langage naturel (dickens) 1,32x 1,32x
Binaire compilé (mozilla) 1,68x 1,73x

Ce qui ressort, ce n’est pas l’obtention du ratio maximal, mais sa constance. Pour XML et bases de données, l’économie de capacité peut être très significative. Pour le langage naturel, la marge est plus modeste. En ce qui concerne les binaires, cela dépend du contenu précis. En pratique, cela implique que toute infrastructure doit effectuer ses propres évaluations : toutes les charges ne convertiront pas 12 To physiques en 24 To ou 48 To utiles, et cela doit être pris en compte dans la planification.

Même avec des ratios de 1,5x ou 2x, l’impact peut être notable en termes de coût. Dans les environnements avec de vastes pools de mémoire, une capacité utile accrue sans ajouter de modules physiques réduit coûts, consommation, encombrement et pression sur la chaîne d’approvisionnement. Pour l’IA, la recherche vectorielle, la recommandation, l’inférence LLM, les caches ou l’analytique, la mémoire devient un facteur clé, non un simple accessoire.

Pourquoi c’est crucial maintenant : DDR5 est une ressource critique

L’annonce intervient à un moment où la mémoire serveur n’est plus une commodité bon marché. Marvell cite des prix spot entre 27 et 37 dollars par Go pour la RDIMM DDR5, ce qui pourrait faire près d’un demi-million de dollars en DRAM pour un pool de 12 To. La société ajoute que ces prix ont augmenté de 300 % à 400 % depuis le milieu de 2025.

Bien que ces chiffres soient indicatifs, ils correspondent à une tendance générale : les fabricants de mémoire priorisent HBM, la DRAM de serveur, les contrats avec les hyper-scalers, et des produits liés à l’IA. La mémoire pour serveur classique doit faire face à une demande beaucoup plus vive qu’auparavant, ce qui pousse les prix à la hausse.

Problème Impact sur l’infrastructure
DDR5 coûteuse Augmentation des coûts des serveurs et des pools CXL
Demande en IA Capacité de fabrication saturée
Priorité HBM Déplacement des investissements vers des produits à plus forte marge
Plus de modèles en inférence Augmentation du besoin en mémoire par nœud
Bases de données en mémoire Pression accrue sur la capacité utile
Recherche vectorielle Besoin de gros volumes proches du calcul

La compression matérielle ne crée pas de DRAM supplémentaire, mais elle fait travailler plus efficacement la mémoire existante. C’est une distinction importante : cela ne règle pas tous les problèmes d’approvisionnement, mais peut permettre de différer certains achats, limiter la taille des configurations, et rendre viables certains architectures autrement trop coûteuses avec de la mémoire non compressée.

Toutes les charges ne se valent pas

Le principal risque de cette technologie est de la présenter comme une solution universelle. Ce n’est pas le cas. La compression dépend beaucoup du type de données. Des charges avec beaucoup de redondance, d’structures régulières ou de zéros peuvent bénéficier énormément. À l’inverse, pour des données déjà compactées, chiffrées ou à haute entropie, l’intérêt est limité. La compression offre un gain à condition que la compression soit efficace, ce qui n’est pas garanti avec tous les contenus.

De plus, CXL introduit sa propre latence par rapport à la mémoire locale DDR, et la compression ajoute une étape supplémentaire qui doit être évaluée selon le contexte.

Cela ne remet pas en cause la valeur de la proposition, mais impose de la mettre en œuvre judicieusement : elle est particulièrement adaptée pour la mémoire froide ou tiède, les données volumineuses avec accès irrégulier, les caches de second niveau, bases de données où toute la capacité en DDR local n’est pas nécessaire, ou encore dans des charges où le coût par gigaoctet prime sur la latence.

Bon candidat Candidat plus sensible
Bases de données compressibles Données déjà compressées
Caches importants Charges ultra-légères
Recherche vectorielle avec mémoire coûteuse Données chiffrées en mémoire
Recommandateurs avec grosses tables Accès aléatoires très sensibles
Analytique en mémoire Pics où CXL devient un goulot d’étranglement
Mémoire à plusieurs niveaux Applications sans tolérance à la variabilité

La réussite dans l’adoption dépendra de tests indépendants, de l’intégration aux systèmes d’exploitation, des outils d’observabilité, des politiques de gestion de mémoire, et de la maturité de CXL sur chaque plateforme CPU. La compression matérielle peut rester transparente, mais les architectes devront toujours savoir quelles parties de leur mémoire résident en DDR local et quelles sont dans une couche CXL compressée.

Une vision du futur de la mémoire pour l’IA

Ce développement montre que la mémoire n’est plus simplement une réserve passive, mais une couche active. Pendant des années, on ajoutait simplement de la DRAM aux serveurs en pensant que le logiciel l’exploiterait. Avec l’IA, les bases vectorielles et les moteurs d’inférence à grande échelle, la gestion de la mémoire devient plus complexe : il faut décider quelles données méritent HBM, lesquelles doivent rester en DDR, celles pouvant bouger vers CXL, et celles qui peuvent être compressées sans trop pénaliser la performance.

Marvell se positionne à la frontière de cette évolution. Structera ne concurrence pas une CPU ou une GPU, mais le coût de remplir chaque machine de DIMMs. Dans les grands centres, économiser des modules peut coûter autant que d’augmenter la puissance brute. Moins de mémoire physique signifie aussi moins de consommation, moins de pression sur la chaîne d’approvisionnement saturée.

Ce concept ne sera pas l’apanage de Marvell indéfiniment. Si la mémoire reste chère, d’autres contrôleurs CXL, accélérateurs et architectures continueront à chercher des solutions similaires : compression, déduplication, hiérarchisation automatique, mémoire partagée. Tous deviendront des outils courants pour maximiser la capacité, tout en maîtrisant les coûts.

Le giga-octet utile, nouvelle unité de mesure

Pendant longtemps, on achetait la mémoire par capacité physique : 512 GB, 1 TB, 12 TB. Avec la nouvelle donne, cette mesure devient insuffisante. La performance s’évalue désormais en capacité utile par euro, par watt, par slot ou par charge. Et c’est là que la compression en silicium peut transformer la conversation.

Marvell ne prétend pas que la compression multipliée par quatre ou que CXL remplace la DRAM locale. Son message est plus précis : dans un marché où chaque gigaoctet coûte très cher, il n’est pas logique de considérer la mémoire comme bon marché, même si elle est compressible.

Si CXL s’impose comme extension naturelle de la mémoire serveur, la compression en ligne passera du simple avantage différenciateur à une exigence standard. En IA, où la capacité et la puissance de calcul sont équitables, chaque gigaoctet compte. Et maintenant, Marvell veut que chaque gigaoctet en « compte » davantage.

Questions fréquentes

Qu’est-ce que Marvell Structera CXL ?
Une gamme de dispositifs CXL conçus pour augmenter la capacité mémoire et rapprocher l’accélération des données dans les serveurs de centres de données.

Quels bénéfices apporte la compression CDB ?
Elle compresse les données via le matériel lors de l’écriture en DRAM et les décompresse lors de leur lecture, en toute transparence pour la CPU, le système d’exploitation et les applications.

Est-ce que la mémoire sera toujours doublée ?
Pas forcément. Le ratio dépend des données. Marvell indique des ratios allant de 1,32x à 3,64x selon le type de données, avec des cas extrêmes pouvant atteindre beaucoup plus, notamment pour des pages entièrement zéro.

Quelles charges tireront le plus de bénéfices ?
Bases de données en mémoire, moteurs de recommandation, inférence de grands modèles, recherches vectorielles, caches importants, et usages où la capacité est prioritaire sur la latence limite.

Source : marvell

le dernier