Les puces d’intelligence artificielle (IA) Blackwell de Nvidia, annoncées comme une révolution dans le traitement des données, font face à d’importants défis en raison de problèmes de surchauffe dans les serveurs conçus pour les héberger. Cette situation a suscité l’inquiétude parmi les clients, qui craignent des retards supplémentaires dans la mise en place de nouveaux centres de données, selon un rapport récent de The Information.
Problèmes techniques dans les serveurs
Les puces Blackwell, qui représentent la dernière avancée de Nvidia en matière d’unités de traitement graphique (GPU) à haute capacité, ont montré des comportements inappropriés lorsqu’elles sont connectées dans des baies de serveurs capables d’intégrer jusqu’à 72 unités. Selon des sources proches du dossier, la surchauffe se produit lorsqu’elles fonctionnent simultanément, compromettant la stabilité et la performance attendue.
Le problème a conduit Nvidia à demander plusieurs révisions dans la conception des baies à ses fournisseurs, dans un effort pour atténuer les risques de surchauffe excessive. Bien que les détails concernant les fournisseurs spécifiques n’aient pas été rendus publics, des employés de Nvidia et des partenaires avec une connaissance directe ont confirmé les difficultés techniques et les efforts pour les résoudre.
Un porte-parole de Nvidia a déclaré à Reuters que la société travaille en étroite collaboration avec les fournisseurs de services cloud pour aborder ces problèmes, qualifiant les itérations d’ingénierie de « normales et attendues ».
Impact sur les clients clés
Le retard dans la résolution de ces problèmes pourrait affecter significativement des géants technologiques tels que Meta Platforms, Alphabet (Google) et Microsoft, qui avaient prévu d’incorporer les puces Blackwell dans leurs infrastructures d’IA. Initialement annoncées pour leur expédition au deuxième trimestre de 2024, les puces ont déjà subi des retards dans leur production et sont maintenant affectées par les problèmes d’intégration dans les serveurs.
Ces puces, considérées comme révolutionnaires, combinent deux unités de silicium de la taille des modèles précédents en un seul composant. Cette innovation permet une performance 30 fois supérieure dans des tâches telles que les réponses de chatbots, positionnant Blackwell comme un composant clé pour propulser les applications d’intelligence artificielle générative.
L’importance de la conception du refroidissement
La surchauffe dans les baies de serveurs met en évidence un problème récurrent dans l’industrie technologique : le besoin de systèmes de refroidissement avancés pour gérer la consommation énergétique croissante des puces à haute puissance. Selon les experts, la conception des systèmes de refroidissement doit évoluer parallèlement aux progrès du matériel pour éviter les goulots d’étranglement des performances.
De plus, avec la demande croissante en traitement de données poussée par l’IA, garantir la stabilité et l’efficacité thermique est devenu une priorité stratégique pour des entreprises comme Nvidia et leurs clients dans le cloud.
Perspectives pour l’avenir
Malgré les défis actuels, Nvidia est confiante de résoudre les problèmes de conception et de maintenir sa position de leader dans la technologie des puces pour l’intelligence artificielle. Avec l’IA jouant un rôle crucial dans des secteurs tels que le cloud, les chatbots et l’analyse avancée, la résolution de ces problèmes sera clé pour répondre aux attentes de l’industrie et maintenir la confiance des clients.
Alors que les retards et les difficultés techniques sont courants dans le développement de nouvelles technologies, l’impact sur les délais de mise en œuvre et les coûts associés pourrait représenter un défi considérable pour Nvidia et ses partenaires. Pour l’instant, l’attention est portée sur les prochaines mises à jour du projet et sur la manière dont la société prévoit d’assurer que les puces Blackwell répondent aux attentes de performance et de fiabilité.
Références : The Information et Reuters.