TensorWave déploie le plus grand cluster de GPU AMD pour l’entraînement d’IA en Amérique du Nord avec 8 192 accélérateurs MI325X et refroidissement liquide direct

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

TensorWave, une entreprise spécialisée dans l’infrastructure pour l’intelligence artificielle, a récemment annoncé le déploiement du plus grand cluster de formation basé sur GPU AMD en Amérique du Nord. Composé de 8 192 accélérateurs Instinct MI325X équipés d’un système de refroidissement liquide direct à puce, ce déploiement représente une avancée technique majeure et un soutien significatif à l’écosystème AMD dans un marché jusque-là dominé par NVIDIA.

Ce cluster, désormais en pleine opération, fournit une capacité de formation en cloud à la demande pour des clients professionnels. La configuration push en évidence une architecture très dense, avec des composants refroidis par des boucles de liquide orange vif, témoignant de l’ingénierie avancée mise en œuvre.

Les GPU AMD Instinct MI325X, lancés fin 2024, marquent l’entrée la plus ambitieuse d’AMD dans l’univers des accélérateurs d’IA. Avec une mémoire HBM3e de 256 Go, un bande passante de 6 To/s et une capacité de calcul atteignant 2,6 PFLOPS en FP8, chaque unité repose sur une architecture chiplet avec 19 456 cœurs stream fonctionnant à 2,1 GHz.

Malgré une puissance par GPU d’environ 1 000 W, ce qui rend la ventilation par air impossible à grande échelle, TensorWave a opté pour une solution de refroidissement liquide direct, permettant de maintenir des températures optimales tout en évitant l’utilisation de connecteurs complexes ou de systèmes de ventilation massifs. Cette innovation ouvre la voie à l’utilisation de GPU plus puissants comme le MI350X, susceptible d’atteindre un TDP de 1 400 W, grâce à l’architecture CDNA 4.

Ce déploiement intervient peu après la levée de fonds de 100 millions de dollars de TensorWave, principalement soutenu par AMD Ventures et Magnetar Capital. Contrairement à la majorité des fournisseurs de services cloud favorisant le hardware NVIDIA, TensorWave mise sur AMD, convaincu que l’écosystème ROCm (Radeon Open Compute) est suffisamment mature pour supporter des entraînements à grande échelle.

Bien que NVIDIA conserve une position dominante avec son écosystème CUDA, la réussite initiale de TensorWave marque un tournant, en ouvrant de nouvelles options pour la formation de l’IA à grande échelle. La société prévoit d’intégrer dans la seconde moitié de 2025 les GPU MI350X, apportant de nouvelles précisions FP4 et FP6, ainsi que des bandes passantes accrues, le tout nécessitant une refroidissement liquide.

Avec plus de 8 000 GPU AMD en fonctionnement, TensorWave se positionne comme un acteur clé pour les clients recherchant des alternatives compétitives à NVIDIA, tant en termes de coût que d’efficience thermique. Son exemple pourrait également inspirer d’autres acteurs intéressés par une IA plus durable et scalable.