HPE renforce son engagement dans la super informatique : nouvelle génération HPE Cray pour dominer l’ère de l’IA et du HPC

HPE renforce son engagement dans la super informatique : nouvelle génération HPE Cray pour dominer l'ère de l'IA et du HPC

Hewlett Packard Enterprise (HPE) franchit une étape supplémentaire dans sa stratégie pour dominer l’univers du supercalcul en cette ère de l’intelligence artificielle. La société a dévoilé une extension de son portefeuille HPE Cray Supercomputing de nouvelle génération, axée sur trois nouveaux blades de calcul à haute densité, un logiciel unifié de gestion, ainsi qu’un système d’interconnexion et de stockage conçus pour des charges de travail hybrides en IA et HPC à grande échelle.

Objectif clair : proposer une architecture unique capable de répondre aussi bien aux centres de recherche, aux entités souveraines qu’aux grandes entreprises ayant besoin de combiner simulation scientifique classique et modèles d’IA générative de plus en plus exigeants.


Une plateforme pour la convergence entre IA et HPC

La nouvelle génération de HPE Cray Supercomputing s’articule autour de la plateforme GX5000, récemment présentée et spécialement conçue pour conjuguer IA et HPC. Sur cette base, HPE introduit désormais :

  • Trois blades de calcul multi-partenaire et multi-chargements, tous refroidis par refroidissement liquide direct à 100 %.
  • Le HPE Supercomputing Management Software qui unifie la gestion des systèmes tout au long du cycle de vie de l’infrastructure.
  • Une version du système d’interconnexion HPE Slingshot 400 adaptée à la nouvelle plateforme.
  • Le système de stockage HPE Cray Supercomputing Storage Systems K3000, avec logiciel DAOS intégré dès la fabrication.

Selon la société, cette architecture offre, dans son ensemble, l’une des densités de calcul les plus élevées du secteur, prête à faire face à la croissance explosive des modèles d’IA, des simulations complexes, et des volumes de données massifs.


Trois blades pour presque tous les scénarios de supercalcul

Le cœur de cette proposition réside dans les nouveaux blades de calcul, conçus pour offrir différentes configurations de CPU et GPU en fonction des types de charges :

HPE Cray Supercomputing GX440n Accelerated Blade

Conçu comme un moteur de calcul « universel » pour les charges en précision mixte, principalement axées sur GPU :

  • 4 CPUs NVIDIA Véra
  • 8 GPUs NVIDIA Rubin
  • Jusqu’à 24 blades par rack, soit jusqu’à 192 GPUs Rubin par rack

Ce blade s’adresse clairement aux utilisateurs qui misent sur l’écosystème NVIDIA pour l’entraînement et le déploiement de grands modèles d’IA, ainsi que pour des simulations massives accélérées par GPU.

HPE Cray Supercomputing GX350a Accelerated Blade

Orienté vers ceux qui recherchent une solution complète à base d’AMD pour l’IA et le HPC :

  • 1 CPU AMD EPYC de nouvelle génération « Venice »
  • 4 GPUs AMD Instinct™ MI430X, la nouvelle série MI400 dédiée à l’IA souveraine et au HPC
  • Jusqu’à 28 blades par rack, avec jusqu’à 112 GPUs MI430X par rack

Ce design vise les entités qui veulent renforcer leur souveraineté technologique en évitant une dépendance excessive à un seul fournisseur, grâce à la combinaison de EPYC et d’Instinct dans des architectures de supercalcul.

HPE Cray Supercomputing GX250 Compute Blade

Blade dédié aux partitions CPU uniquement, pour des charges en double précision typiques du HPC :

  • 8 CPUs AMD EPYC « Venice » par blade
  • Jusqu’à 40 blades par rack, ce qui offre une densité de cœurs x86 de premier plan

L’idée est de permettre des configurations hybrides : une partition GPU (avec blades GX440n ou GX350a) et une partition CPU pure, toutes deux intégrées dans le même système selon les besoins du centre.

Tous les blades partagent des éléments clés :

  • Refroidissement direct par liquide à 100 %, conçu pour la haute densité et la consommation croissante des GPUs de nouvelle génération.
  • Jusqu’à 4 ou 8 endpoints HPE Slingshot à 400 Gbps par blade, pour leur intégration dans des réseaux à faible latence et à grande échelle.
  • Option d’ajouter des unités NVMe par blade, pour mettre en cache les données critiques ou accélérer les flux d’E/S proches du calcul.

Gestion unifiée et multitenant pour l’infrastructure IA et HPC

L’un des défis majeurs des grands systèmes est leur gestion sécurisée et efficace. HPE introduit HPE Supercomputing Management Software, une couche logicielle qui centralise :

  • Provisionnement, surveillance et évolutivité de l’infrastructure.
  • Gestion de la puissance et de l’énergie, avec des métriques aidant à estimer la consommation et à s’intégrer aux planificateurs « power-aware ».
  • Soutien aux environnements multi-tenant, virtualisés et conteneurisés, permettant d’isoler les utilisateurs et groupes de travail.
  • Fonctions renforcées de sécurité et gouvernance, destinées aux environnements où la confidentialité des données et modèles est primordiale.

Le but est que les grands centres de supercalcul puissent exploiter leurs systèmes comme une plateforme partagée pour l’IA et le HPC, sans devoir maintenir des silos séparés pour chaque charge de travail.


HPE Slingshot 400 : une interconnexion prête pour l’ère exa-IA

Le composant réseau constitue un autre pilier de cette offre. HPE Slingshot 400, déjà annoncé précédemment, s’adapte désormais au format GX5000 :

  • Nouveau châssis pour switch blade refroidi par liquide, doté de 64 ports à 400 Gbps par commutateur.
  • Configurations possibles :
    • 8 switches avec 512 ports
    • 16 switches avec 1 024 ports
    • 32 switches avec 2 048 ports

Slingshot 400 vise à offrir :

  • Latence réduite et amplitude de bande passante soutenue
  • Gestion de la congestion et fiabilité adaptées aux modèles de trafic propres à l’IA à grande échelle et à la simulation parallèle
  • Exploitation optimale de la topologie hautes performances du GX5000, tout en maintenant des coûts maîtrisés par rapport à des solutions plus personnalisées.

K3000 : stockage DAOS pensé pour l’IA intensive en données

La pièce maîtresse suivante est le système de stockage HPE Cray Supercomputing Storage Systems K3000, basé sur des serveurs HPE ProLiant Compute DL360 Gen12 et intégré en usine avec le logiciel Distributed Asynchronous Object Storage (DAOS).

L’objectif est de répondre aux applications où l’E/S constitue le goulot d’étranglement, en particulier :

  • Entraînement et fine-tuning de grands modèles d’IA.
  • Chargements de données massifs avec des schémas d’accès complexes.
  • Simulations scientifiques générant d’énormes volumes de résultats.

Parmi les options de configuration, on trouve :

  • Serveurs optimisés pour performance avec 8, 12 ou 16 unités NVMe.
  • Serveurs optimisés pour capacité avec 20 unités NVMe.
  • Capacités par unité : 3,84 TB, 7,68 TB ou 15,36 TB.
  • Configurations mémoire DRAM de 512 GB, 1 024 GB ou 2 048 GB, selon la taille des disques.

En termes de connectivité, le K3000 supporte :

  • HPE Slingshot 200 et 400
  • InfiniBand NDR
  • Ethernet à 400 Gbps

La combinaison DAOS avec NVMe et ces interconnexions est conçue pour offrir basse latence et haut rendement soutenu, essentielle pour que le stockage ne limite pas la productivité des clusters IA.


L’Allemagne à l’avant-garde : Herder et Blue Lion

Les engagements de HPE ne sont pas simplement théoriques : deux grands centres de supercalcul académique en Allemagne ont choisi le HPE Cray GX5000 comme base pour leurs futurs superordinateurs emblématiques :

  • Le High-Performance Computing Center de l’Université de Stuttgart (HLRS), qui déploiera le supercalculateur Herder.
  • Le Leibniz Supercomputing Centre (LRZ) de l’Académie bavaroise des sciences et humanités, avec leur futur système Blue Lion.

Dans ces deux cas, les responsables ont souligné deux facteurs clés :

  1. Saut de performances : pour LRZ, il s’agit d’une amélioration soutenue jusqu’à 30 fois par rapport au système actuel, permettant la convergence entre simulation classique et techniques avancées d’IA.
  2. Efficacité énergétique et durabilité : Blue Lion utilisera un refroidissement liquide direct capable d’opérer à des températures allant jusqu’à 40 °C, facilitant la réutilisation de la chaleur résiduelle dans le campus de Garching.

HPE confirme ainsi sa position dans l’écosystème européen du HPC et de l’IA, dans un contexte où la souveraineté technologique et l’efficience énergétique sont devenues des priorités stratégiques.


Calendrier et contexte de marché

HPE a fixé un calendrier progressif :

  • Les blades GX440n, GX350a et GX250, ainsi que le HPE Supercomputing Management Software et le HPE Slingshot 400 pour GX5000, seront disponibles à partir de début 2027.
  • Le système de stockage K3000 avec serveurs ProLiant sera lancé en amont, au début 2026.

Ce contexte intervient dans un secteur en forte croissance, tant en HPC qu’en IA générative, avec une demande croissante d’infrastructures capables d’évoluer sans faire grimper coûts et consommation énergétique. La stratégie de HPE avec sa nouvelle famille Cray vise précisément à offrir une architecture durable et prête pour l’avenir, où la frontière entre supercalcul scientifique et « usine » de modèles d’IA sera de plus en plus floue.

Pour les centres de données, universités et grandes entreprises envisageant des investissements, le message est clair : la prochaine vague de supercalcul ne se mesurera pas seulement en petaflops ou exaflops, mais en flops par watt, en flexibilité pour mélanger IA et HPC, et en la capacité de gérer des infrastructures complexes comme une seule plateforme. Le nouveau portefeuille HPE Cray Supercomputing ambitionne d’être un acteur incontournable de ce domaine.

Vía : hpe

le dernier