
HetCCL : la pièce manquante pour entraîner des modèles avec des GPU NVIDIA et AMD dans le même cluster
La course à la formation de modèles de langage de plus en plus grands rencontre un problème moins visible que la taille des paramètres ou la qualité des données : la logistique du matériel informatique. En pratique, déployer une infrastructure de machine learning à grande échelle ne consiste plus seulement à “acheter plus de GPU”, mais aussi à les obtenir, à les intégrer et à faire en sorte qu’ils travaillent ensemble sans transformer le système en un casse-tête de compatibilités. C’est là qu’intervient HetCCL, une nouvelle bibliothèque de communication collective présentée par une équipe de chercheurs affiliée à l’Université nationale de Séoul et à Samsung Research. Sa proposition cible un goulet d’étranglement précis : la difficulté d’utiliser efficacement et en




