Kioxia souhaite que les SSD soient une pièce maîtresse des usines d’IA

Kioxia souhaite que les SSD soient une pièce maîtresse des usines d'IA

La course à l’Intelligence Artificielle ne se joue pas uniquement sur les GPU, mais également dans une couche plus discrète, cependant de plus en plus cruciale : le stockage. À mesure que les modèles grandissent, que les agents d’IA gagnent en autonomie, et que les entreprises construisent des infrastructures conçues pour produire et consommer en continu des tokens, les centres de données doivent déplacer, consulter et conserver d’énormes quantités d’informations sans faire exploser la consommation énergétique ni laisser les accélérateurs inactifs.

Kioxia cherche à se positionner précisément sur ce terrain. La société japonaise, héritière du secteur mémoires de Toshiba, a présenté ces derniers mois une gamme de technologies combinant SSD de très haute capacité, mémoire flash à faible latence, logiciels pour la recherche vectorielle, ainsi que de nouvelles approches pour connecter stockage et GPU. L’objectif est clair : la NAND ne doit plus être vue uniquement comme une couche bon marché de stockage, mais comme une composante active de l’architecture d’IA.

Cette proposition intervient à un moment sensible dans la conception des centres de données. La mémoire HBM est essentielle pour exploiter pleinement le potentiel des GPU, mais elle est coûteuse, consomme beaucoup d’énergie et ses limites physiques en capacité sont présentes. La DRAM offre plus d’espace, mais n’évolue pas au rythme exigé par l’IA générative. Entre ces deux options, les SSD d’entreprise commencent à prendre de la valeur en tant qu’extension de mémoire, cache proche du calcul, et support pour les bases vectorielles, RAG, inférence et formation.

SSD de 245 To pour data lakes et bases vectorielles

Un des produits les plus remarquables de Kioxia est la gamme LC9, un SSD NVMe professionnel atteignant 245,76 To de capacité. La société le présente comme le premier SSD NVMe de cette capacité, en format 2,5 pouces et EDSFF E3.L, avec interface PCIe 5.0 et mémoire BiCS FLASH QLC 3D imbriquée sur 32 couches.

L’objectif d’un tel dispositif ne concerne pas le PC grand public ni même le serveur traditionnel. Il est pensé pour les data lakes, les référentiels d’entraînement, les bibliothèques de contenu, les systèmes de recherche, et les bases vectorielles devant stocker des quantités massives d’informations proches de l’infrastructure de calcul. Dans un contexte d’IA générative, la capacité seule ne suffit pas : les données doivent être accessibles avec un débit suffisant pour que les GPU n’aient pas à attendre.

Le bond par rapport aux disques durs traditionnels ne se limite pas à la vitesse. Il concerne aussi la densité par rack, la consommation par téraoctet, et la complexité opérationnelle. Moins d’unités physiques impliquent moins de tiroirs, moins de points de défaillance, et une gestion simplifiée, bien que le coût initial par téraoctet reste souvent un paramètre décisif. Ainsi, les SSD très haute capacité ne remplacent pas immédiatement les HDD, mais modifient la donne dans les charges où la latence et le rendement par watt comptent autant que le prix.

Kioxia inscrit le LC9 dans une tendance plus large : faire du stockage flash une pièce plus proche du traitement des données. Plutôt que de déplacer constamment des informations d’un dépôt distant vers le système de calcul, une partie des données peut rester dans des SSD proches des GPU. Cette proximité réduit le trafic réseau, améliore la disponibilité des données, et permet d’élaborer des infrastructures plus équilibrées.

XL-FLASH et SSD à très hautes IOPS pour alimenter les GPU

La deuxième approche, quant à elle, se concentre moins sur la capacité et davantage sur la latence. Kioxia a développé des solutions basées sur XL-FLASH, une mémoire de type Storage Class Memory, conçue pour se positionner entre la DRAM et la NAND classique. Elle ne vise pas la densité maximale, mais une accessibilité plus rapide et un volume d’opérations d’entrée/sortie par seconde considérablement accru.

Lors de GTC 2026, Kioxia a présenté des avancées orientées vers ce qu’elle qualifie de stockage « prêt pour l’IA », incluant un émulateur SSD capable de dépasser 100 millions d’IOPS, ainsi que des solutions pensées pour fonctionner près des GPU. La société a aussi collaboré avec NVIDIA pour concevoir des architectures visant à réduire le goulet d’étranglement entre stockage et accélérateurs, un enjeu de plus en plus visible dans l’inférence à grande échelle ou dans les systèmes consultés par des modèles ou des bases de données gigantesques.

Le point clé technique étant l’accès lui-même : de nombreux workloads d’IA ne nécessitent pas uniquement de grosses transferts séquentiels. Ils comportent aussi des lectures petites, fréquentes, et aléatoires : paramètres, vecteurs, fragments de contexte ou données extraites pour les systèmes RAG. Dans ce contexte, se contenter de mesurer la bande passante en gigabytes par seconde est insuffisant. L’importance croît pour les IOPS, la latence, et la capacité à gérer plusieurs requêtes simultanées.

Kioxia n’est pas seule sur ce chemin. Tout le secteur explore des solutions pour rapprocher stockage et calcul : accès direct depuis GPU, DPUs, CXL, mémoires persistantes, caches spécialisées, encapsulages avancés. La société japonaise mise sur une combinaison de flash à faible latence, de nouveaux contrôleurs, et d’architectures permettant aux GPU d’accéder aux données avec moins d’intervention de la CPU.

AiSAQ : rechercher dans le SSD sans charger tout en DRAM

La dimension logicielle prend également de l’ampleur. Kioxia a lancé AiSAQ, une technologie open source dédiée aux recherches approximatives de voisins proches, optimisée pour les SSD. Son objectif : réduire la pression sur la DRAM dans les systèmes RAG, où les bases vectorielles nécessitent souvent de grands index chargés en mémoire pour fournir des réponses rapides.

AiSAQ permet de rechercher une partie de ces index directement dans le SSD, sans devoir tout transférer en DRAM. Ceci favorise la scalabilité des bases vectorielles volumineuses avec un coût mémoire inférieur, même si la performance finale dépend de la qualité du SSD, de la taille de l’index, de la précision souhaitée et de la conception de l’application.

Ce dispositif répond à une réalité difficile pour de nombreuses entreprises : déployer un système RAG en production ne se limite pas à connecter un modèle de langage à des documents d’entreprise. Cela implique de stocker, mettre à jour, versionner et rechercher des millions, voire des milliards, de vecteurs. Si tout le rendement repose sur le remplissage de serveurs en DRAM, le coût peut rapidement exploser. Utiliser le SSD comme partie intégrante de la recherche ouvre une voie intermédiaire entre capacité et vitesse.

Kioxia avance aussi sur le développement de la mémoire solide supportant ces produits. Sa stratégie BiCS FLASH combine deux générations : une neuvième centrée sur l’efficacité de production et la performance via la technologie CBA, ainsi qu’une dixième avec un nombre accru de couches (jusqu’à 332) pour améliorer la densité, la performance et l’efficacité énergétique. Avec Sandisk, elle a également dévoilé une technologie de mémoire flash 3D avec une interface de 4,8 Gb/s, une densité accrue, et une consommation réduite lors des opérations de lecture/écriture.

Le marché de la mémoire industrielle est vaste. Pendant des années, les centres de données ont été conçus autour des CPU, de la mémoire, et du stockage, avec une hiérarchie claire. L’IA bouleverse ces frontières. La HBM restera essentielle avec les GPU, mais ne pourra à elle seule absorber toute la croissance des données. La DRAM restera critique, mais son coût et ses limites seront des contraintes. La NAND, grâce à sa structure 3D et à sa capacité continue d’augmenter en densité, a le potentiel d’assumer un rôle plus sophistiqué.

Kioxia vise cet espace avec une gamme répondant à trois besoins : capacité massive avec LC9, performance extrême avec XL-FLASH, réduction de la dépendance à la DRAM avec AiSAQ. Bien que toutes ces solutions ne soient pas encore totalement matures commercialement ou adaptées à toutes les charges, elles dessinent une orientation claire : le stockage ne doit plus être un composant passif en IA, mais un élément intégré à la conception du système.

Pour les opérateurs de centres de données, il ne s’agit plus seulement de comptabiliser les pétaoctets installés. Il faut aussi décider de l’emplacement des données, de leur connexion aux GPU, de ce qui doit résider en HBM, en DRAM ou dans des SSD à faible latence, et de ce qui peut rester dans un stockage massif. Dans ces « usines d’IA », cette architecture peut faire la différence entre des accélérateurs saturés ou du matériel très coûteux attendant des données.

Questions fréquentes

Que propose Kioxia pour le stockage IA ?
Kioxia combine SSD de très haute capacité, mémoire XL-FLASH à faible latence, logiciels pour la recherche vectorielle, et technologies visant à rapprocher le stockage des GPU.

Quelle capacité a le SSD Kioxia LC9 ?
La gamme LC9 atteint 245,76 To en format 2,5 pouces et EDSFF E3.L, avec interface PCIe 5.0 et mémoire BiCS FLASH QLC 3D.

Qu’est-ce qu’AiSAQ et à quoi sert-il ?
AiSAQ est un logiciel open source de Kioxia pour la recherche de voisins proches sur SSD. Il vise à réduire la dépendance à la DRAM dans les systèmes RAG en permettant de rechercher partiellement les index directement dans le SSD.

Pourquoi les SSD sont-ils importants pour l’Intelligence Artificielle ?
Parce que les charges d’IA nécessitent de stocker, récupérer et traiter d’importantes quantités de données avec une faible latence. Si le stockage ne suit pas, les GPU risquent d’être sous-exploités.

via : en.eeworld

le dernier