NVIDIA veut que la « mémoire » des agents d’IA survive en dehors du GPU : voici sa nouvelle plateforme de stockage avec BlueField-4

NVIDIA veut que la « mémoire » des agents d'IA survive en dehors du GPU : voici sa nouvelle plateforme de stockage avec BlueField-4

Dans la course effrénée pour faire avancer l’IA agéntique (modèles capables d’enchaîner les tâches, de raisonner sur une période plus longue et de maintenir des conversations avec contexte), NVIDIA concentre actuellement ses efforts sur une problématique très précise : la mémoire de contexte. Lors du CES, la société a annoncé que son BlueField-4 (un processeur de données / DPU) sera l’élément clé pour impulser la Plateforme de stockage de mémoire de contexte pour l’inférence NVIDIA, une solution de « stockage natif pour l’IA » conçue pour l’inférence à grande échelle et pour partager rapidement le contexte entre noeuds.

Le goulot d’étranglement : le cache KV, la « mémoire » qui ne tient pas éternellement sur la GPU

À mesure que les modèles prennent de l’ampleur et surtout que les contextes s’allongent (plus de tours de conversation, davantage de documents, plus d’étapes de raisonnement), le volume de données que le système doit garder « à portée de main » pour répondre avec cohérence augmente. Cet état est généralement représenté par un cache key-value (KV), essentiel pour la continuité, la latence et l’expérience utilisateur.

Le problème, selon NVIDIA, est qu’il n’est pas viable de stocker ce cache KV en GPU à long terme sans transformer l’inférence en un processus bloquant : la mémoire GPU est une ressource trop coûteuse et limitée pour devenir également un stockage persistant de l’historique de multiples agents et sessions.

La proposition : un « stockage de mémoire de contexte » pour les clusters d’IA

La Plateforme de stockage de mémoire de contexte pour l’inférence se présente comme une nouvelle couche d’infrastructure permettant :

  • Délayer la capacité de mémoire utile au-delà de la GPU (en termes de contexte).
  • Partager le contexte à haute vitesse entre nœuds au sein de systèmes en « rack-scale ».
  • Améliorer les tokens par seconde et l’efficacité énergétique « jusqu’à 5 fois » par rapport aux solutions de stockage traditionnelles, selon les estimations de l’entreprise.

Dans le discours de NVIDIA, cela permet à des agents de soutenir des conversations longues et un travail multi-tours sans « oublier » et sans pénaliser le rendement du cluster lorsque de nombreux utilisateurs, fils ou agents simultanés sont actifs.

Quel rôle joue BlueField-4 dans tout cela (et pourquoi ce n’est pas « juste un réseau »)

BlueField n’est pas une NIC classique : NVIDIA le classe dans la catégorie des DPUs et l’associe au framework DOCA, avec l’idée de décharger, accélérer et isoler les services d’infrastructure (réseau, sécurité, stockage) afin de fournir des données « à la vitesse de la fibre » aux charges de travail.

Sur cette plateforme spécifique, NVIDIA affirme que BlueField-4 permet notamment :

  • Gérer le « placement » du cache KV avec une accélération matérielle pour réduire la surcharge des métadonnées et le déplacement des données.
  • Isoler les accès et renforcer les contrôles de sécurité / segmentation dans des environnements multi-tenant.
  • Se connecter avec les logiciels de la société pour maximiser la latence et le débit lors de l’inférence agéntique.

L’orchestration logicielle et le rôle de Spectrum-X

L’annonce relie également la plateforme à des composants du stack NVIDIA :

  • DOCA comme fondation de la programmation et de l’accélération.
  • Intégration avec NIXL et Dynamo pour maximiser les tokens par seconde, réduire le time-to-first-token et améliorer la gestion multi-tours.
  • Spectrum-X Ethernet comme réseau pour un accès RDMA à cette « mémoire de contexte ».

La signification implicite est claire : si la nouvelle vague d’applications ne se limite pas à « une question, une réponse », mais concerne des systèmes d’agents avec mémoire à court et long terme, alors le stockage ne sera plus un simple dépositaire passif, mais deviendra un composant actif influant sur la performance globale.

L’écosystème : fabricants et acteurs du stockage s’alignent déjà

NVIDIA affirme que plusieurs acteurs spécialisés dans le stockage et l’infrastructure construisent déjà des plateformes de nouvelle génération autour de BlueField-4. Parmi eux figurent Dell Technologies, HPE, IBM, Nutanix, Pure Storage, Supermicro, VAST Data, WEKA, ainsi que des spécialistes tels que DDN ou Cloudian. La disponibilité de BlueField-4 pour cette application est prévue pour la deuxième moitié de 2026.


Questions fréquentes (FAQ)

Qu’est-ce que le cache KV et pourquoi devient-il critique pour l’IA agéntique ?
Le cache KV est l’état que maintiennent les modèles pour répondre de manière cohérente et à faible latence dans des contextes longs et multi-tours. Lorsque les contextes s’allongent et que le nombre d’agents augmente, cet état consomme davantage de mémoire GPU, ce qui pose problème.

En quoi une DPU comme NVIDIA BlueField se distingue-t-elle d’une architecture classique avec CPU + stockage ?
L’objectif est de décharger et d’accélérer les fonctions d’infrastructure (réseau, sécurité, stockage) pour réduire la surcharge, améliorer l’isolation et déplacer les données avec moins de latence vers les nœuds d’inférence.

Cela remplace-t-il les systèmes de stockage d’entreprise traditionnels ?
Plutôt que de les remplacer, NVIDIA conçoit cette solution comme une nouvelle classe, adaptée à une utilisation spécifique : mémoire de contexte pour l’inférence à grande échelle, notamment multi-agents et à longue portée.

Quand la plateforme basée sur BlueField-4 sera-t-elle commercialisée ?
NVIDIA prévoit sa disponibilité pour la deuxième moitié de 2026, avec des partenaires déjà en train de développer des produits autour de cette approche.

Source : nvidianews.nvidia

le dernier