En 2002 et 2023, le monde a commencé à voir la prolifération d’applications d’intelligence artificielle (IA) dans divers secteurs. Qu’est-ce qui pousse cette révolution ? Les centres de données : le cœur vibrant derrière l’essor de l’IA, allié incontestablement à l’avancée des GPUs, en particulier de NVidia.
L’explosion de la croissance des applications d’intelligence artificielle a nécessité une réévaluation complète du centre de donnéesUn centre de données ou centre de traitement de données (CTD) … traditionnel. L’infrastructure existante n’est généralement pas conçue ni équipée pour gérer la capacité énorme de traitement parallèle et la mémoire que requièrent les charges de travail de l’IA. Seulement en 2024, le monde devrait générer 1,5 fois le volume de données numériques qu’il a produit il y a deux ans.
Sans aucun doute, la demande de charges de travail d’IA dépassera sous peu la computación en nuage traditionnelle, et une approche uniforme ne satisfait pas les besoins des développeurs d’IA qui nécessitent des solutions personnalisées pour leurs immenses et spécifiques besoins.
Le problème avec les Centres de Données traditionnels
Les centres de données traditionnels ont été principalement construits pour soutenir des applications polyvalentes, offrant un équilibre entre performances et coût. La majorité de la puissance de calcul fut conçue pour des charges de travail telles que des serveurs web, des sites de commerce électronique et des bases de données, et non pas pour la puissance de traitement nécessaire à l’entraînement d’un Modèle de Langue Large (LLM).
Les principales limitations des centres de données traditionnels incluent :
- Équilibre de performance et coût : Ils ne sont pas optimisés pour certains types de charges de travail.
- Utilisation fragmentée : Les charges de travail se développent de manière incrémentielle, sans nécessité de grande capacité de traitement parallèle ni de stockage massif.
- Charges de travail centrées sur les CPU : ce qui nécessite significativement moins d’énergie et génère beaucoup moins de chaleur comparé aux GPUs.
Les développeurs d’IA ont besoin de solutions personnalisées avec une grande capacité, une disponibilité immédiate et un soutien technique de haut niveau. Les centres de données existants manquent d’architecture, de refroidissement et de logiciel nécessaires pour exécuter des charges de travail d’IA ou de calcul accéléré.
Composants clés du redesign
- Architecture : La densité de puissance par serveur a été multipliée par quatre comparée aux serveurs CPU. Les centres de données traditionnels sont conçus avec une densité moyenne de 5 à 10 kW par rack, alors que les centres de données d’IA requièrent maintenant 60 kW ou plus par rack.
- Refroidissement : Les serveurs comportant plusieurs GPUs génèrent beaucoup plus de chaleur qu’un serveur traditionnel, ce qui présente deux défis principaux :
- Les solutions actuelles de refroidissement à air sont sollicitées et requièrent que les racks de GPUs soient plus espacés pour être refroidis efficacement.
- Les racks de la prochaine génération pourraient consommer jusqu’à 120 kW d’énergie par armoire, en générant une chaleur qui ne peut être dissipée par air.
- Logiciel : Le logiciel traditionnel compte avec des redondances et peut recourir à d’autres composants matériels si l’un échoue. Les LLMs sont entrainés comme un cluster, avec des implications coûteuses si le matériel échoue. Il est nécessaire un stack logiciel construit spécifiquement pour optimiser les performances de la charge de travail et se récupérer automatiquement des interruptions.
Transition des Centres de Données pour l’IA : Une mise à jour globale
Adapter les centres de données existants pour les transformer en installations d’IA implique des mises à jour importantes du matériel et même de la structure du bâtiment pour gérer de nouveaux types de charges de travail. Cela inclut :
- Remplacer le matériel par des composants capables de traiter et de transmettre de grandes quantités de données en temps réel.
- Reconfigurer le réseau pour soutenir une largeur de bandeLa largeur de bande est la capacité maximale de transfert d… bien plus grande, assurant une communication efficace entre des racks de GPU densément emballés et des systèmes de stockage à distance.
- Redessiner la disposition, le refroidissement, l’énergie et les systèmes de câblage pour accommoder la densité plus grande et l’interconnectivité des racks de GPU.
Réimaginer le centre de données
La première étape concerne l’énergie. Redessiner le système énergétique pour gérer ces charges de travail se fait au niveau du centre de données et du rack. Les systèmes de refroidissement futurs exigeront des refroidissements liquides dans chaque partie du centre de données, utilisant moins d’eau que les systèmes de refroidissement à air actuels. Intégrer un refroidissement liquide dans de nouveaux centres de données requiert de la planification et de l’investissement dans une infrastructure spécialisée.
La transformation de la connectivité du centre de données n’est pas seulement une question de connexion des serveurs, mais de faciliter une communication efficace à haute vitesse entre les GPUs. Dans un environnement propulsé par l’IA, où le traitement parallèle est la norme, la vitesse à laquelle les GPUs échangent des données détermine les performances générales.
Le résultat de ce redesign sont des applications plus rapides et plus efficaces que celles exécutées sur des infrastructures obsolètes. Les déploiements de KubernetesKubernetes (communément appelé en anglais « K8s ») … sans serveur permettent des temps de démarrage rapides, une mise à échelle automatique réactive et la capacité à gérer des milliers de GPUs par charge de travail, avec une infrastructure spécialement construite pour résoudre les challenges présentés par ces lourdes charges de travail.
Avec ces progrès, les centres de données sont prêts à soutenir la révolution de l’intelligence artificielle et les applications de calcul haute performance, marquant le début d’une nouvelle ère dans l’infrastructure numérique.