Snowflake, la société de cloud de données propulsée par l’IA, a annoncé l’intégration de la collection Llama 3.1 de modèles de langage multilingues open source à sa plateforme Snowflake Cortex AI. Cette ajout permettra aux entreprises de créer et d’exploiter des applications IA puissantes à grande échelle plus simplement. Le lancement inclut le modèle de langage open source le plus grand et le plus avancé de Meta, Llama 3.1 405B. Snowflake a développé et ouvert un ensemble d’outils d’inférence pour faciliter la performance en temps réel et démocratiser l’utilisation d’applications avancées de traitement et de génération de langage naturel. L’optimisation de Snowflake pour Llama 3.1 405B autorise une fenêtre de contexte de 128K dès le premier jour, avec une latence jusqu’à trois fois inférieure et une performance 1,4 fois supérieure à celle des solutions open source existantes. De plus, le réglage du modèle peut se faire de manière massive avec un seul nœud de GPU, simplifiant et réduisant les coûts pour les développeurs et utilisateurs au sein de Cortex AI.
Grâce à son partenariat avec Meta, Snowflake offre aux clients une manière efficace et sécurisée d’accéder, de régler et de déployer les modèles les plus récents de Meta sur sa plateforme de cloud de données IA, avec un focus sur la confiance et la sécurité dès le départ.
« Nous simplifions l’utilisation des modèles de pointe tels que Llama 3.1 405B pour l’inférence et le paramétrage, en maximisant l’efficacité », déclare Vivek Raghunathan, vice-président du génie IA chez Snowflake. « Nous ne nous contentons pas de fournir un accès direct aux modèles de Meta via Snowflake Cortex AI, mais nous offrons également une nouvelle recherche et du code open source qui supportent des fenêtres de contexte de 128K, l’inférence multi-nœuds, le parallélisme de pipeline, la quantification à virgule flottante 8 bits, et plus encore pour faire avancer l’écosystème IA ».
L’équipe de recherche IA de Snowflake continue de pousser les innovations open source par des contributions à la communauté IA et en maintenant la transparence sur leurs technologies LLM. Avec le lancement de Llama 3.1 405B, ils présentent leur suite de solutions d’inférence LLM massive et d’optimisation de système de réglage fin en collaboration avec DeepSpeed, Hugging Face, vLLM et la communauté IA en général. Cela représente une avancée significative dans l’inférence et le réglage de modèles avec des milliards de paramètres.
Les grands modèles et les exigences de mémoire représentent des défis significatifs pour obtenir une inférence à faible latence dans les applications en temps réel, une haute performance pour la rentabilité, et le support pour des contextes prolongés dans l’IA générative d’entreprise. La pile d’optimisation du système d’inférence LLM massive et de réglage fin de Snowflake aborde ces problèmes en utilisant des techniques de parallélisme et d’optimisation de la mémoire avancées, permettant un traitement efficace sans nécessiter une infrastructure coûteuse. Dans le cas de Llama 3.1 405B, la plateforme Snowflake offre un haut rendement en temps réel sur un seul nœud de GPU et supporte une fenêtre de contexte de 128 000 en configurations multinœud. Cette flexibilité s’applique tant au matériel moderne qu’ancien, rendant cela accessible à un plus large éventail d’entreprises. En outre, les data scientists peuvent ajuster Llama 3.1 405B en utilisant des techniques de précision mixte sur moins de GPU, éliminant le besoin de grands clusters de GPU. En conséquence, les organisations peuvent adapter et déployer des applications d’IA générative de niveau entreprise de manière simple, efficace et sécurisée.
Snowflake a également développé une infrastructure optimisée pour le réglage fin qui comprend des techniques telles que la distillation de modèles, des barrières de sécurité, la génération augmentée de récupération (RAG) et la génération de données synthétiques, facilitant l’entrée dans ces cas d’utilisation au sein de Cortex AI.
La sécurité de l’IA est cruciale pour Snowflake et ses clients. C’est pourquoi Snowflake a lancé Snowflake Cortex Guard pour protéger contre le contenu nuisible dans toute application LLM ou actif créé sur Cortex AI, que ce soit en utilisant des modèles de Meta ou des LLMs d’autres fournisseurs importants comme AI21 Labs, Google, Mistral AI, Reka, et Snowflake lui-même. Cortex Guard utilise Llama Guard 2 de Meta pour assurer que les modèles utilisés sont sûrs.
Les commentaires des clients et partenaires de Snowflake sur cette nouveauté incluent :
- Dave Lindley, Sr. Directeur des Produits de Données chez E15 Group : « Nous nous appuyons sur l’IA générative pour analyser et mieux comprendre notre plateforme Voice of the Customer. Accéder aux modèles Llama de Meta au sein de Snowflake Cortex AI nous aide à obtenir les insights nécessaires pour améliorer notre entreprise. »
- Ryan Klapper, dirigeant de l’IA chez Hakkoda : « La sécurité et la confiance dans l’IA générative sont essentielles. Snowflake nous offre les garanties nécessaires pour utiliser en toute sécurité des modèles de langage évolués, ce qui nous permet d’améliorer nos applications internes. »
- Matthew Scullion, PDG et cofondateur de Matillion : « Intégrer les modèles Llama de Meta dans Snowflake Cortex AI offre à nos clients l’accès aux modèles de langage les plus avancés et la flexibilité de les adapter à leurs besoins IA. »
- Kevin Niparko, VP de Stratégie des Produits et Technologie chez Twilio Segment : « La capacité de choisir le modèle adapté dans Snowflake Cortex AI permet à nos clients de générer des insights intelligents basés sur l’IA et de les appliquer dans leurs outils, contribuant à obtenir des résultats optimaux. »