Gradient AI réussit à étendre le contexte de Llama 3 à plus d’un million de jetons

Gradient AI réussit à étendre le contexte de Llama 3 à plus d'un million de jetons

Gradient AI, une entreprise spécialisée dans l’intelligence artificielle, a réalisé une avancée importante dans le domaine du traitement du langage naturel en étendant le contexte des modèles Llama 3 de Meta à plus d’un million de tokens. Cette réussite positionne ces modèles comme ayant le contexte le plus large dans le domaine de l’open source.

Un bond quantique dans la capacité de traitement

Les modèles de langage Llama 3, récemment lancés par Meta, ont suscité un grand enthousiasme dans la communauté de l’open source en raison de leur performance exceptionnelle. Cependant, une limitation notable était leur longueur de contexte relativement petite. Gradient AI a vu là une opportunité pour améliorer ces modèles.

La longueur de contexte détermine combien de texte un modèle peut considérer à l’entrée et à la sortie en une seule fois. Tandis que les modèles les plus avancés offrent des fenêtres de contexte allant jusqu’à 128 000 tokens (environ 90 000 mots), Gradient AI a réussi à augmenter cette capacité à plus d’un million de tokens pour les modèles Llama 3 de 8B et 70B paramètres.

Infrastructure et technologie derrière la réussite

Pour mener à bien ce projet, Gradient AI s’est associé à Crusoe, un fournisseur d’infrastructure de calcul. Le choix du matériel a été crucial, optant pour les GPU NVIDIA L40S en raison de leur disponibilité rapide et de leur performance remarquable dans les opérations à virgule flottante de 8 bits (FP8).

L’équipe de Gradient AI a implémenté des techniques d’optimisation avancées, comme RingAttention, pour surmonter les limitations de mémoire et permettre des longueurs de contexte effectivement infinies. De plus, ils ont développé des stratégies propriétaires pour équilibrer la charge de calcul et améliorer la performance générale de l’entraînement.

Impact et efficacité

Les modèles résultants ont démontré des résultats exceptionnels dans les tests de récupération d’information et se positionnent parmi les meilleurs sur le Open LLM Leaderboard. De plus, le coût estimé de l’entraînement pour ces modèles étendus s’avère compétitif par rapport aux options de fine-tuning disponibles via les API commerciales.

Considérations environnementales

À un moment où la demande pour des modèles d’IA plus puissants augmente exponentiellement, Gradient AI et Crusoe ont également abordé l’aspect de la durabilité. Crusoe alimente ses centres de données avec une combinaison d’énergie gaspillée, perdue et propre, ce qui permet d’exécuter des charges de travail d’IA à grande échelle tout en s’alignant avec les objectifs climatiques.

Cette avancée dans l’extension du contexte des modèles Llama 3 représente une étape importante vers des modèles de langage plus capables et polyvalents, avec des applications potentielles dans un large éventail d’industries et de cas d’utilisation.

source : Crusoe

le dernier