Catalina : le système d’IA avec lequel Meta redéfinit l’infrastructure ouverte des centres de données

Catalina : le système d'IA avec lequel Meta redéfinit l'infrastructure ouverte des centres de données

Meta a dévoilé les détails de sa nouvelle architecture matérielle pour l’intelligence artificielle, baptisée Catalina. Ce système combine la puissance du NVIDIA Blackwell GB200 NVL72, le standard Open Rack v3 (ORv3) et une refroidissement liquide haute densité. Annoncée lors du Open Compute Project (OCP), cette innovation illustre la démarche de Meta pour étendre son infrastructure IA tout en promouvant la collaboration ouverte et la standardisation dans un secteur souvent dominé par des solutions propriétaires.

En 2022, Meta exploitait des clusters d’environ 6 000 GPU, principalement pour les recommandations et le classement de contenus. Un an plus tard, avec la montée en puissance de l’IA générative et des grands modèles linguistiques (LLM), ces clusters avaient été multipliés par près de quatre, atteignant entre 16 000 et 24 000 GPU. En 2024, l’entreprise opère déjà avec plus de 100 000 GPU en production, anticipant une croissance multiplier cette capacité par dix dans les années à venir. Cette expansion a été rendue possible notamment par le traitement de modèles tels que Llama 3.1, doté de 405 milliards de paramètres et nécessitant plus de 16 000 GPU H100 pour son entraînement sur 15 trillions de tokens.

Catalina naît pour répondre à cette demande exponentielle en puissance de calcul, en mettant l’accent non seulement sur la quantité de GPU, mais aussi sur leur interconnexion, l’efficacité énergétique et la scalabilité du système. La solution consiste en un système de pods IA, où chaque pod correspond à deux racks IT totalisant 72 GPU. Chaque rack est constitué de 18 bacs de calcul, équipés de neuf NVSwitches par côté pour la connexion des GPU, utilisant des connexions NVLink pour former un domaine mémoire cohérent, avec un refroidissement liquide par Air-assisted Liquid Cooling (ALC).

Ce qui distingue Catalina, c’est sa capacité à copier et à faire évoluer facilement ses modules via le Disaggregated Scheduled Fabric (DSF), un réseau ouvert, modulaire et supportant l’interconnexion de plusieurs pods, racks et même bâtiments entiers en un super-cluster unifié optimisé pour l’IA.

Le système est basé sur le standard Open Rack v3 (ORv3), également première implémentation de haute puissance dans cette norme, permettant jusqu’à 94 kW par rack, avec une prise en charge de 600A. La modularité d’ORv3 facilite l’intégration d’unités de puissance de 480 V converties en 48 V DC, tout en permettant une connectivité directe aux systèmes de refroidissement liquide et une gestion avancée grâce au Rack Management Controller (RMC) dédié à la détection de fuites, la régulation des vannes et la supervision thermique.

Face à la densité énergétique des GPU Blackwell, Meta a adopté une solution hybride de refroidissement liquide assisté par l’air, avec des capteurs pour surveiller les risques et garantir la performance dans des infrastructures modernes. La conception est aussi compatible avec les futures architectures de bâtiments, permettant une gestion optimale des fluides.

Même si Catalina repose principalement sur la plateforme NVIDIA, Meta s’engage également dans la diversification de ses partenaires, en intégrant des accélérateurs AMD Instinct MI300X dans sa plateforme Grand Teton, lancée en 2022, et en développant ses propres composants comme le FBNIC, un ASIC de réseau. La société valorise aussi la mise en place de standards ouverts, comme le Disaggregated Scheduled Fabric et le support de RoCE sur Ethernet, pour favoriser un écosystème technologique diversifié et compétitif.

Enfin, la collaboration entre Meta et Microsoft dans le cadre de l’OCP se poursuit avec des initiatives telles que Mount Diablo, un rack en courant continu de 400 V, permettant d’accueillir davantage d’accélérateurs avec une efficacité accrue. Ce partenariat témoigne d’une nouvelle dynamique industrielle où concurrents et partenaires œuvrent de concert à l’établissement de standards ouverts, orientés vers l’innovation et la démocratisation de l’IA.

Meta présente ainsi Catalina comme une réponse à la fois technologique et stratégique : un signe de l’avenir de l’infrastructure IA, qui mise sur la standardisation, l’ouverture et une énergie efficace pour soutenir le développement de l’intelligence artificielle à l’échelle mondiale.

le dernier