Red Hat, leader mondial dans les solutions logicielles open source, a présenté Red Hat AI 3, une mise à jour majeure de sa plateforme d’intelligence artificielle dédiée aux entreprises. Cette nouvelle version combine les innovations de Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI, dans le but de simplifier la complexité de l’inférence à haute performance à grande échelle. Les organisations peuvent ainsi accélérer la transition des prototypes aux environnements de production et optimiser le développement d’applications propulsées par l’IA.
Alors que les entreprises dépassent le stade purement expérimental, elles rencontrent des défis importants : confidentialité des données, maîtrise des coûts et gestion de multiples modèles. Le rapport The GenAI Divide: State of AI in Business du projet NANDA du MIT dépeint cette situation : près de 95 % des organisations n’obtiennent pas de retours financiers tangibles, malgré des investissements qui avoisinent 40 milliards de dollars.
Red Hat AI 3 s’attaque directement à ces problématiques en proposant une expérience unifiée et cohérente permettant aux DSI et équipes techniques de mieux exploiter leurs investissements en accélération informatique. La plateforme facilite l’expansion et l’orchestration agile des charges de travail IA dans des environnements hybrides et multicloud, tout en favorisant la collaboration interéquipes travaillant sur des cas d’usage avancés, comme les agents, le tout dans un cadre opérationnel unique. Fonctionnant sur des standards ouverts, Red Hat AI 3 accompagne les organisations à chaque étape de leur adoption, avec une compatibilité pour tout modèle sur tout accélérateur matériel, du centre de données à la cloud publique, y compris dans des environnements d’IA souveraine et jusqu’au edge de réseau.
De la formation à l’action : la transition vers l’inférence IA d’entreprise
Alors que les organisations déploient leurs initiatives IA en production, l’attention se déplace du simple entraînement et réglage des modèles vers la phase d’inférence, étape clé de la mise en œuvre opérationnelle. Red Hat AI 3 mise sur une inférence scalable et économique, s’appuyant sur le succès reconnu des projets communautaires vLLM et llm-d, ainsi que sur ses capacités d’optimisation des modèles, pour proposer un service de modèles linguistiques large (LLM) de qualité entreprise.
Pour maximiser l’usage du hardware haut de gamme disponible, Red Hat OpenShift AI 3.0 introduit la disponibilité générale de llm-d, qui réinvente l’exécution native des LLM sur Kubernetes. llm-d permet une inférence distribuée intelligente, combinant l’efficacité de l’orchestration Kubernetes et la performance de vLLM, enrichie par des technologies open source clés telles que Kubernetes Gateway API Inference Extension, la bibliothèque de transfert de données à faible latence NVIDIA Dynamo (NIXL) et DeepEP Mixture of Experts (MoE). Cela permet aux organisations de :
- Réduire les coûts et accélérer les temps de réponse grâce à une planification intelligente et optimisée de l’inférence, couplée à un service modulable.
- Garantir une simplicité opérationnelle et une fiabilité maximale via des Routages bien éclairés facilitant le déploiement à grande échelle de modèles sur Kubernetes.
- Augmenter la flexibilité grâce au support multiplateforme permettant de déployer l’inférence LLM sur une variété d’accélérateurs matériels, dont NVIDIA et AMD.
Basé sur vLLM, llm-d s’est transformé d’un moteur d’inférence haute performance à un système de service distribué, cohérent et évolutif. Il est intégralement connecté à Kubernetes, conçu pour offrir un rendement prévisible, un retour sur investissement mesurable et une gestion efficace de l’infrastructure. Ces avancées répondent directement aux défis liés à la gestion de charges LLM très variables et au déploiement de modèles massifs, tels que ceux utilisant l’approche Mixture-of-Experts (MoE).
Une plateforme unifiée pour une IA collaborative
Red Hat AI 3 propose une expérience intégrée et flexible, pensée spécifiquement pour répondre aux exigences collaboratives de la création de solutions IA génératives prêtes pour la production. Conçue pour générer une valeur concrète en favorisant la collaboration et en harmonisant les flux de travail entre équipes, cette plateforme unique permet à la fois aux ingénieurs DevOps et aux experts IA de mettre en œuvre efficacement leur stratégie. Parmi ses nouvelles fonctionnalités destinées à accélérer la transition de la preuve de concept à la production :
- Les capacités Model as a Service (MaaS), reposant sur l’inférence distribuée, permettent aux équipes IT d’agir en tant que leurs propres fournisseurs MaaS, en hébergeant des modèles communs de façon centralisée et en offrant un accès à la demande aux développeurs et applications IA. Cela facilite la gestion des coûts et notamment la prise en charge de cas d’usage sensibles à la confidentialité ou ne pouvant s’appuyer sur des services publics d’IA.
- Le Hub IA offre aux ingénieurs plateforme un centre de ressources pour explorer, déployer et gérer leurs actifs IA fondamentaux. Il met à disposition un catalogue consolidé de modèles éprouvés et optimisés, un registre pour la gestion du cycle de vie des modèles, ainsi qu’un environnement de déploiement pour suivre et piloter tous les actifs IA dans OpenShift AI.
- Le Gen AI Studio fournit un espace pratique pour que les ingénieurs IA interagissent avec les modèles et créent rapidement de nouvelles applications de génération IA. Grâce à des endpoints facilitant la découverte, la consommation et le déploiement, ainsi qu’un playground interactif, ils peuvent expérimenter avec des prompts et paramètres pour des cas d’usage tels que la conversation ou la génération basée sur la récupération d’informations (RAG).
- De nouveaux modèles validés et optimisés par Red Hat simplifient le développement. La sélection comprend des modèles open source populaires comme gpt-oss d’OpenAI, DeepSeek-R1, ainsi que des modèles spécialisés comme Whisper pour la conversion vocale en texte et Voxtral Mini pour la création d’agents vocalement interactifs.
Les bases pour les agents IA de nouvelle génération
Les agents IA sont appelés à transformer la conception des applications, en imposant des flux de travail complexes et autonomes qui solliciteront des capacités d’inférence avancées. La version Red Hat OpenShift AI 3.0 pose les premières pierres pour des systèmes d’IA agentique évolutifs, non seulement via ses capacités d’inférence, mais aussi avec de nouvelles fonctionnalités dédiées à la gestion d’agents intelligents.
Pour accélérer la création et le déploiement de ces agents, Red Hat a introduit une couche API unifiée basée sur Llama Stack, facilitant la conformité avec les standards de l’industrie tels que les protocoles LLM compatibles OpenAI. De plus, dans une démarche d’ouverture et d’interopérabilité accrue, Red Hat adopte parmi ses premières le Protocole de Contexte de Modèle (MCP), un standard prometteur facilitant l’interaction des modèles IA avec des outils externes, un aspect vital pour les agents modernes. AI 3 propose également un kit d’outils modulaire et extensible pour la personnalisation des modèles, construit sur la plateforme InstructLab. Il inclut des bibliothèques Python spécialisées pour donner plus de contrôle et de flexibilité aux développeurs, comme Docling pour le traitement de documents non structurés, ainsi que des cadres pour la génération de données synthétiques et un hub d’entraînement pour le fine-tuning des LLM. Un tableau de bord intégré permet aux ingénieurs de suivre et évaluer en continu leurs modèles, facilitant une exploitation sûre et efficace de leurs données propriétaires pour des résultats IA plus précis et pertinents.