Cinq Mac Studios peuvent-ils former un superordinateur d’IA ? Une expérience avec EXO Labs

Cinq Mac Studios peuvent-ils former un superordinateur d'IA ? Une expérience avec EXO Labs

Titre : Une avancée dans l’informatique distribuée : un cluster IA avec cinq Mac Studios

Actuellement, les modèles d’intelligence artificielle les plus avancés nécessitent une infrastructure informatique massive, avec des serveurs équipés de GPU haute performance tels que les NVIDIA H100 ou A100, dont le coût peut facilement dépasser celui d’un logement. Toutefois, une expérience récente a remis en question cette tendance en utilisant cinq Mac Studios pour créer un cluster IA capable d’exécuter des modèles de langage à grande échelle avec EXO Labs, un logiciel émergent de calcul distribué.

Défi : Exécuter Llama 3.1 405B avec un matériel grand public

Llama 3.1 405B est un modèle de langage comprenant 405 milliards de paramètres, le rendant particulièrement complexe et exigeant en termes de matériel. Traditionnellement, ces types de modèles ne peuvent être exécutés que dans des centres de données avec des serveurs optimisés pour l’IA, équipés de réseaux à haute vitesse et de mémoire vidéo (VRAM) spécialisée. Le but de cette expérience était de vérifier si un cluster de cinq Mac Studios dotés de puces M2 Ultra et de 64 Go de mémoire unifiée chacun pouvait relever le défi, en tirant parti de l’architecture de mémoire unifiée d’Apple pour compenser le manque de VRAM dédiée.

Configuration du cluster avec EXO Labs

Pour relier les cinq Mac Studios et les faire fonctionner ensemble, EXO Labs, un logiciel open-source, a été employé pour distribuer les charges de travail de l’IA entre plusieurs appareils, y compris des ordinateurs portables, des PCs et des serveurs. La réseau de communication a été cruciale pour les performances :

  • Réseau Ethernet de 10 Gbps : Les Mac Studios étaient initialement connectés via un switch UniFi XG6 POE de 10 Gbps, mais il est rapidement apparu que cette vitesse était insuffisante pour gérer le trafic de données nécessaire.
  • Connexions Thunderbolt 4 (40 Gbps) : Des ponts Thunderbolt ont été utilisés pour améliorer la bande passante et réduire la latence, montrant des améliorations significatives dans la communication entre les nœuds du cluster.

Premiers tests : performances avec des modèles plus petits

Avant de s’attaquer à Llama 3.1 405B, des tests ont été effectués avec des modèles de taille inférieure :

  • Llama 3.21B (1 milliard de paramètres) : S’est exécuté sans problème sur un seul Mac Studio, avec une vitesse d’inférence acceptable.
  • Llama 3.3 70B (70 milliards de paramètres) : A nécessité l’utilisation du cluster, avec une distribution de la charge entre plusieurs unités, obtenant des résultats satisfaisants.
  • Llama 3.1 405B (405 milliards de paramètres) : C’est ici que les véritables défis ont commencé.

Problèmes avec le modèle de 405B paramètres

Le principal obstacle était le usage intensif de la mémoire. Malgré un total de 320 Go de RAM unifiée dans le cluster, cela ne suffisait pas pour gérer le modèle sans recourir à la mémoire d’échange, ce qui a gravement affecté les performances. De plus, la communication entre les nœuds était un problème persistant. Bien que Thunderbolt 4 ait amélioré la bande passante, la latence restait un facteur limitant, les centres de données traditionnels étant optimisés par des réseaux InfiniBand de 400 ou 800 Gbps.

Comparaison avec le matériel AI traditionnel

Ressource Mac Studio M2 Ultra (x5) Serveur AI avec GPU H100
Mémoire totale (RAM/VRAM) 320 Go (unifiée) 1 To+ (H100)
Bande passante interne 40 Gbps (Thunderbolt) 400-800 Gbps (InfiniBand)
Consommation énergétique ~750W (total 5 Mac Studios) 3,000-5,000W
Coût estimé 13,000$ (total) 200,000$+

En termes d’efficacité énergétique et de coûts, les Mac Studios présentent des avantages clairs. Néanmoins, le manque de mémoire VRAM spécialisée et de réseaux ultra-rapides limite leur capacité à exécuter des modèles d’IA à grande échelle avec la même efficacité que les serveurs optimisés.

Conclusion : Un cluster Mac Studios pour l’IA est-il viable ?

L’expérience avec EXO Labs a prouvé que les Mac Studios peuvent exécuter des modèles d’IA, mais avec des limites. Pour les modèles petits ou moyens, ils peuvent constituer une alternative viable, surtout si la consommation d’énergie est un facteur crucial. Cependant, pour des modèles à grande échelle comme Llama 3.1 405B, le manque de matériel optimisé pour l’IA demeure un obstacle majeur.

Malgré cela, cette épreuve ouvre de nouvelles possibilités pour le calcul distribué sur matériel grand public, et avec des améliorations futures dans des logiciels comme EXO Labs, cela pourrait devenir une option plus prometteuse pour certains types de charges de travail en IA.

Source : actualités intelligence artificielle

le dernier