Red Hat lance la communauté llm-d pour renforcer l’inférence distribuée de l’IA générative à grande échelle

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Red Hat lance un projet innovant pour l’inférence à grande échelle en IA générative

Red Hat, leader mondial des solutions open source, a dévoilé le lancement de llm-d, un projet ambitieux destiné à relever l’un des défis majeurs de l’avenir de l’intelligence artificielle générative : l’inférence à grande échelle. Ce développement vise à optimiser les performances et l’efficacité des modèles de langage génératifs (LLM) dans des environnements de production réels.

Conçu dès le départ pour tirer parti des environnements natifs de Kubernetes, llm-d intègre une architecture distribuée basée sur vLLM ainsi qu’un système révolutionnaire d’acheminement de réseau intelligent conscient de l’IA. Cette combinaison permet le déploiement de nuages d’inférence conformes aux normes les plus rigoureuses en matière d’exigence opérationnelle et de service, même dans des contextes à forte intensité d’utilisation.

Alors que le perfectionnement des modèles demeure essentiel, la phase d’inférence prend de plus en plus d’importance : c’est le moment où les modèles entraînés génèrent des réponses, contenus ou solutions, créant ainsi des expériences concrètes pour l’utilisateur et de la valeur pour les entreprises.

Un rapport récent de Gartner souligne que d’ici 2028, plus de 80 % des accélérateurs de charge de travail dans les centres de données seront dédiés à des tâches d’inférence plutôt qu’à des entraînements. Cela met en lumière le besoin d’outils comme llm-d pour faire face à la montée en charge d’exécutions de modèles complexes, tout en évitant les problèmes de latence ou des coûts excessifs.

La centralisation de l’inférence sur de grands serveurs montre déjà ses limites face à l’augmentation des demandes et à la complexité croissante des modèles. Dans ce contexte, llm-d se présente comme une alternative flexible, évolutive et ouverte, permettant aux développeurs et aux organisations de déployer des infrastructures d’inférence plus distribuées et durables, tout en maintenant des performances élevées.

Avec ce lancement, Red Hat réaffirme son engagement envers l’innovation ouverte et l’évolution de l’écosystème de l’intelligence artificielle, offrant des outils qui facilitent l’adoption responsable et efficace des technologies basées sur des modèles génératifs.

Faire face à la nécessité d’une IA générative évolutive avec llm-d

Red Hat et ses partenaires industriels relèvent ce défi avec llm-d, un projet qui amplifie le potentiel de vLLM pour dépasser les limites d’un serveur unique et permettre une production à grande échelle pour l’inférence en IA. S’appuyant sur l’orchestration éprouvée de Kubernetes, llm-d intègre des capacités d’inférence avancées dans les infrastructures IT existantes. Cette plateforme unifiée permet aux équipes IT de répondre aux diverses demandes de service pour les charges de travail critiques, tout en déployant des techniques innovantes pour maximiser l’efficacité et réduire considérablement le coût total de possession (TCO).

llm-d se distingue par une série d’innovations :

vLLM, devenu le serveur d’inférence standard de facto en open source, offrant un support dès le jour 1 pour les modèles de pointe émergents et une large gamme d’accélérateurs, y compris les TPU de Google Cloud.
Désagrégation du pré-remplissage et du décodage, permettant de séparer les phases de contexte d’entrée et de génération de jetons IA en opérations discrètes, distribuables sur plusieurs serveurs.
Déchargement de la mémoire cache KV, s’appuyant sur LMCache, qui déplace la charge mémoire de la GPU vers une mémoire standard plus économique et abondante.
Clusters et contrôleurs basés sur Kubernetes pour une gestion des ressources informatiques et de stockage plus efficace, selon les fluctuations des demandes de charge de travail.
Acheminement de réseau conscient de l’IA, permettant de diriger les requêtes vers les serveurs et accélérateurs les mieux adaptés.
APIs de communication haute performance pour une transmission rapide et efficace des données entre serveurs, avec prise en charge de la NVIDIA Inference Xfer Library.

llm-d : soutenu par des leaders de l’industrie

Ce projet open source a déjà reçu le soutien d’une impressionnante coalition de fournisseurs leaders de l’IA générative, des pionniers en accélérateurs d’IA et de plateformes cloud renommées. Parmi les collaborateurs fondateurs figurent CoreWeave, Google Cloud, IBM Research et NVIDIA, rejoints par AMD, Cisco, Hugging Face, Intel, Lambda et Mistral AI. Cette collaboration illustre l’engagement du secteur à définir l’avenir de l’inférence LLM à grande échelle.

Fidèle à son engagement en faveur de la collaboration ouverte, Red Hat comprend l’importance cruciale de communautés dynamiques et accessibles dans le paysage de l’inférence d’IA générative. La société s’engage à promouvoir le développement de la communauté llm-d, favorisant un environnement inclusif pour les nouveaux membres.

La vision de Red Hat : tout modèle, tout accélérateur, tout cloud

Red Hat imagine un avenir où les organisations pourront déployer n’importe quel modèle, sur n’importe quel accélérateur, à travers n’importe quel cloud, proposant ainsi une expérience utilisateur exceptionnelle sans coûts exorbitants. Pour débloquer le véritable potentiel des investissements en IA générative, les entreprises ont besoin d’une plateforme d’inférence universelle, établissant un standard pour une innovation IA fluide et performante.

Tout comme Red Hat a révolutionné l’IT moderne en transformant Linux, elle est maintenant prête à façonner l’avenir de l’inférence en IA. Le potentiel de vLLM est d’établir un standard pour l’inférence d’IA générative, et Red Hat s’engage à construire un écosystème prospère autour de la communauté vLLM ainsi que de llm-d pour une inférence distribuée à grande échelle. La vision est claire : quels que soient le modèle d’IA, l’accélérateur sous-jacent ou l’environnement de déploiement, Red Hat vise à faire de vLLM le standard ouvert ultime pour l’inférence dans le nouveau cloud hybride.