Le Centre National pour les Applications de Supercalcul (NCSA) de l’Université de l’Illinois à Urbana-Champaign a officiellement annoncé le lancement de DeltaAI, son nouveau et avancé système de calcul conçu pour dynamiser la recherche en intelligence artificielle (IA) et en applications à haute performance (HPC). DeltaAI, financé à hauteur de près de 30 millions de dollars par la National Science Foundation (NSF), se présente comme une ressource clé promettant de transformer la recherche en IA et HPC aux États-Unis.
Un complément au supercalculateur Delta
DeltaAI se positionne comme un système complémentaire au supercalculateur Delta, une installation basée sur HPE Cray que le NCSA a mise en œuvre en 2021. Alors que Delta avait marqué un jalon avec ses 338 nœuds et GPUs Nvidia A100, DeltaAI amène ces capacités au niveau supérieur, intégrant une technologie de pointe telle que les GPUs Nvidia H100 Hopper et les superchips GH200 Grace Hopper. Ce système ne double pas seulement la performance de son prédécesseur, mais il est spécifiquement optimisé pour les charges de travail en IA, l’apprentissage automatique et les modèles de langage de dernière génération.
Bill Gropp, directeur du NCSA, a souligné que la conception de DeltaAI répond à une demande croissante de ressources basées sur les GPU, une tendance qui a émergé rapidement après la mise en œuvre du système Delta. « L’IA a connu une croissance exponentielle, et avec elle, la nécessité de ressources avec une capacité de mémoire et une performance accrues, » a déclaré Gropp lors d’une interview à la conférence SC2024 à Atlanta.
Performance optimisée pour l’IA et le HPC
DeltaAI offre une performance impressionnante de 633 pétaflops en précision mixte (FP16), conçue spécifiquement pour les tâches d’IA, et des pétaflops en précision double (FP64) pour les applications scientifiques nécessitant une haute précision numérique, comme la modélisation climatique et la dynamique des fluides. Chaque nœud du système est équipé de 320 GPUs Nvidia Grace Hopper, chacun avec 96 GB de mémoire, accumulant un total de 384 GB par nœud. De plus, il comporte un système de stockage de 14 PB capable de gérer jusqu’à 1 TB/seconde et une interconnexion hautement évolutive.
Ce design ne se contente pas d’améliorer la performance des applications actuelles, mais permet également de traiter des modèles de langage à grande échelle et des tâches d’inférence plus complexes. Gropp a noté que le système soutiendra des recherches clés dans des domaines tels que l’intelligence artificielle explicable (XAI), destinée à démêler le fonctionnement interne des modèles d’IA et à améliorer leur fiabilité.
Encourager l’accessibilité et la collaboration
DeltaAI sera disponible pour les chercheurs de tout le pays via le programme NSF ACCESS et l’initiative pilote de la National Artificial Intelligence Research Resource (NAIRR). Cette accessibilité étendue cherche à démocratiser la recherche en IA et HPC, permettant à un plus grand nombre d’utilisateurs de tirer profit des capacités de ce système de dernière génération.
« L’idée est de maximiser l’impact collaboratif, » a expliqué Gropp. « Nous voulons que plus d’utilisateurs profitent de nos GPUs de pointe et qu’ils travaillent ensemble avec d’autres groupes pour partager des ressources et des connaissances. »
Le système est également conçu pour être polyvalent, répondant aussi bien aux besoins spécifiques de l’IA qu’aux applications traditionnelles du HPC, comme la dynamique moléculaire, la mécanique des fluides et la mécanique des structures. Son architecture, basée sur des nœuds multi-GPU et de la mémoire unifiée, offre des solutions à des limitations courantes, comme la largeur de bandeLa largeur de bande est la capacité maximale de transfert… de la mémoire, améliorant significativement la performance dans les tâches intensives en calcul.
Prêt pour l’avenir
DeltaAI fait partie d’une approche de conception d’infrastructure qui intègre de manière fluide ses capacités avec celles de Delta, en utilisant le même réseau Slingshot et le système de fichiers partagés. Ce design ne garantit pas seulement l’efficacité dans l’utilisation des ressources, mais établit également une base pour des extensions futures. En fait, le NCSA a déjà des plans pour ajouter de nouveaux systèmes dans les années à venir, adoptant un modèle de mise à jour continue au lieu d’attendre que le matériel actuel devienne obsolète.
Gropp a également souligné l’importance de trouver un équilibre entre l’enthousiasme pour l’IA et un progrès scientifique pratique. « L’IA a un potentiel énorme, mais il y a des choses qu’elle ne pourra jamais faire avec les technologies actuelles, » a mis en garde. « DeltaAI nous permettra d’avancer autant dans la curiosité scientifique que dans des applications pratiques qui améliorent la vie des gens. »
Un pas vers le leadership en IA et HPC
Avec DeltaAI, le NCSA renforce son engagement à diriger la recherche en intelligence artificielle et en calcul haute performance, en fournissant une ressource qui combine puissance, polyvalence et accessibilité. Ce système ne promet pas seulement d’être un catalyseur pour de nouvelles applications scientifiques et technologiques, mais réaffirme également le rôle de la collaboration et de la transparence dans l’avancement de la connaissance.
DeltaAI représente un exemple de la façon dont la technologie peut être utilisée pour aborder des questions fondamentales, améliorer la fiabilité de l’IA et traduire ces progrès en avantages tangibles pour la société.
Résumé technique : Matériel et réseau de DeltaAI
DeltaAI est conçu avec une technologie de dernière génération pour répondre aux demandes croissantes de recherche en IA et en calcul haute performance. Le système comprend :
- 456 GPUs NVIDIA H100, optimisés pour les tâches d’apprentissage automatique et les charges de travail en IA.
- Réseau HPE Slingshot avec 200 Gb/s, qui fournit une interconnexion haute performance et à faible latence entre les nœuds.
- Systèmes de fichiers Lustre partagés avec le supercalculateur Delta:
- Un système basé sur HDD pour de grands volumes de données.
- Un autre basé sur NVME pour gérer des fichiers de petite taille et des opérations rapides d’E/S.
- Accès au système de fichiers Taiga pour des projets à l’échelle du centre, basé sur Lustre.
- Répertoires personnels hébergés sur Harbor, un système basé sur VAST pour le stockage de haute fiabilité.
Nœuds CPU-GPU à haute performance
DeltaAI dispose de 114 nœuds CPU-GPU, chacun équipé de :
- 4 superchips Grace Hopper GH200 par nœud, chacun avec :
- 1 GPU NVIDIA H100 avec 96 GB de mémoire HBM3.
- 1 CPU Grace ARM à 72 cœurs avec 120 GB de mémoire LPDDR5X.
- 4 connexions réseau Slingshot11, une pour chaque superchip, maximisant l’efficacité de la communication.
- 1 unité NVME de 3,5 TB par nœud, fournissant du stockage rapide et local.
Cet ensemble de matériel permet une performance sans précédent pour des modèles d’IA, avec une infrastructure qui donne la priorité à la puissance aussi bien qu’à l’efficacité. DeltaAI est un outil clé pour des chercheurs qui cherchent à adresser des problèmes complexes et à escalader leurs applications scientifiques et technologiques.
via: HPCwire et NCSA Delta