Lancement de « Fugaku-LLM » : Un modèle de langage à grande échelle développé sur le superordinateur Fugaku

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Une équipe de chercheurs japonais a annoncé le lancement du « Fugaku-LLM », un modèle de langue à grande échelle avec des capacités améliorées en japonais, développé en utilisant le superordinateur Fugaku. Cette avancée promet de révolutionner la recherche et les applications commerciales au Japon et au-delà.

L’équipe, dirigée par le Professeur Rio Yokota de l’Institut de Technologie de Tokyo, le Professeur associé Keisuke Sakaguchi de l’Université de Tohoku, Koichi Shirahata de Fujitsu Limited, le Chef d’équipe Mohamed Wahib du RIKEN, le Professeur associé Koji Nishiguchi de l’Université de Nagoya, Shota Sasaki de CyberAgent, Inc., et Noriyuki Kojima de Kotoba Technologies Inc., est parvenue à entraîner un modèle de langue avec 13 milliards de paramètres, surpassant les modèles de 7 milliards de paramètres prédominants au Japon.

Innovation dans la Formation des Modèles de Langue

Pour entraîner ce modèle sur Fugaku, les chercheurs ont développé des méthodes d’entraînement distribué, y compris la portabilité du framework d’apprentissage profond Megatron-DeepSpeed à Fugaku, optimisant ainsi la performance des transformateurs. En outre, ils ont accéléré la bibliothèque de multiplication de matrices denses pour les transformateurs et optimisé la communication en combinant trois types de techniques de parallélisation.

Performance et Applications

Le Fugaku-LLM, entraîné avec des données propres recueillies par CyberAgent, et d’autres données en anglais et en mathématiques, a montré des capacités supérieures dans des tâches d’humanités et de sciences sociales, atteignant un score de 9.18 sur le banc d’essai japonais MT-Bench, le plus élevé parmi les modèles ouverts entraînés avec des données originales produites au Japon.

Le code source de Fugaku-LLM est disponible sur GitHub, et le modèle peut être trouvé sur Hugging Face, permettant son utilisation à des fins de recherche comme commerciales, à condition de respecter la licence.

Collaboration et Contributions

Chaque institution a joué un rôle crucial dans ce projet :

Institut de Technologie de Tokyo : Supervision générale et optimisation de la communication.
Université de Tohoku : Collecte de données et sélection des modèles.
Fujitsu : Accélération du traitement et de la communication.
RIKEN : Parallélisation distribuée et accélération de la communication.
Université de Nagoya : Étude des applications pour l’IA générative 3D.
CyberAgent : Fourniture de données d’entraînement.
Kotoba Technologies : Portabilité du framework d’apprentissage profond.

Impact Futur

Avec Fugaku-LLM, le Japon renforce sa position dans le développement de l’intelligence artificielle, montrant que les modèles de langue à grande échelle peuvent être entraînés efficacement en utilisant des CPU au lieu de GPU, une solution cruciale face à la pénurie mondiale de GPU.

Ce modèle n’est pas seulement un outil puissant pour la recherche académique, mais il a également le potentiel de stimuler des applications commerciales innovantes, telles que la simulation scientifique et la création de communautés virtuelles avec des milliers d’IA.

Conclusion

Le lancement de Fugaku-LLM marque un jalon important dans le domaine de l’intelligence artificielle au Japon, montrant la puissance du superordinateur Fugaku et les capacités avancées des chercheurs japonais. Ce modèle n’améliore pas seulement la compréhension de la langue japonaise, mais pose également les bases pour de futures innovations dans divers domaines scientifiques et commerciaux.