Elon Musk et NVIDIA doublent la puissance du superordinateur Colossus avec 100 000 GPU supplémentaires pour l’entraînement IA

Elon Musk et NVIDIA doublent la puissance du superordinateur Colossus avec 100 000 GPU supplémentaires pour l'entraînement IA

Elon Musk a doublé sa mise sur l’intelligence artificielle avec l’acquisition de 100.000 autres GPU NVIDIA Hopper H100 pour son superordinateur Colossus, une machine qui, avec cette augmentation, atteindra un total de 200.000 unités, devenant ainsi le système d’entraînement IA le plus puissant au monde. L’installation de cet équipement colossal a lieu à Memphis, Tennessee, avec un déploiement qui cherche à surpasser le record de 19 jours établi lors de sa première phase d’installation.

Colossus : le cluster IA le plus puissant et le plus avancé au monde

Conçu pour entraîner les modèles de langage de xAI, le superordinateur Colossus représente une avancée sans précédent dans le développement de l’intelligence artificielle. Équipé des GPU H100 basés sur l’architecture Hopper et de la plateforme réseau Ethernet NVIDIA Spectrum-X, Colossus est capable de traiter et d’analyser d’énormes volumes de données avec une efficacité exceptionnelle. Grâce à la technologie de contrôle de congestion de Spectrum-X, le système est parvenu à maintenir une performance réseau de 95 % sans latence ni perte de paquets, marquant un jalon dans le domaine du traitement de données à haute vitesse.

L’utilisation du réseau Ethernet Spectrum-X de NVIDIA, qui supporte une vitesse allant jusqu’à 800 Gb/s via son commutateur SN5600, a été clé pour garantir la stabilité et la performance dans une configuration de si grand volume. Cette technologie a permis à xAI de repousser les limites de l’entraînement de modèles d’IA à grande échelle, créant une infrastructure optimisée basée sur Ethernet, et anticipe la possibilité d’offrir ce type de plateformes en services d’IA à grande échelle pour d’autres clients à l’avenir.

Un projet record en temps et en technologie

La première phase de Colossus, qui a installé 100.000 GPU en un temps record de 19 jours, a déjà démontré la capacité logistique et technique de l’équipe de xAI et de NVIDIA. Dans cet accord secondaire, Musk et Jensen Huang, PDG de NVIDIA, ont réaffirmé leur engagement en faveur de la vitesse et de l’efficacité dans le développement d’infrastructures IA. L’installation initiale de Colossus a été complétée en 122 jours, un délai nettement inférieur en comparaison avec d’autres projets de même envergure, qui prennent souvent plusieurs mois, voire des années, à être mis en œuvre.

Le propre Elon Musk, dans un bref commentaire, a fait l’éloge de l’effort conjoint : « Colossus est le système d’entraînement le plus puissant au monde. Bon travail de l’équipe de xAI, NVIDIA et de nos nombreux partenaires et fournisseurs ».

Une étape stratégique pour xAI dans la course à l’IA

L’extension de Colossus répond à l’urgence de Musk de concurrencer au niveau des géants technologiques tels que Google et OpenAI, leaders dans le développement de l’IA à grande échelle. La nouvelle infrastructure est conçue pour soutenir la création et l’amélioration de modèles de langage de xAI, tels que le modèle Grok, avec lequel la compagnie espère attirer des utilisateurs sur sa plateforme et offrir des fonctionnalités avancées pour ses abonnés X Premium.

« xAI a construit le supercalculateur le plus grand et le plus puissant du monde », a indiqué un porte-parole de xAI. « Les GPU Hopper et la technologie Spectrum-X de NVIDIA nous permettent de pousser les limites de l’entraînement de modèles d’IA à grande échelle, créant une usine d’IA hautement accélérée et optimisée ».

L’IA, une mission critique pour l’avenir

De NVIDIA, Gilad Shainer, vice-président senior des réseaux, a affirmé que l’intelligence artificielle est « une mission critique » qui exige des niveaux élevés de performance, de sécurité et d’évolutivité. « La plateforme de réseaux Ethernet NVIDIA Spectrum-X est conçue pour fournir à des innovateurs comme xAI un traitement, une analyse et une exécution plus rapides des workloads d’IA, accélérant le développement et la commercialisation de solutions d’IA ».

Ce projet de Colossus symbolise l’engagement des deux entreprises envers l’avancement de l’IA et souligne leur rôle dans le développement d’infrastructures massives à haute performance qui marqueront l’avenir de la technologie.

via : Nvidia

le dernier