Red Hat AI 3 apporte l’inférence distribuée en production : une plateforme ouverte pour les agents, Kubernetes et tout accélérateur

Red Hat AI 3 apporte l'inférence distribuée en production : une plateforme ouverte pour les agents, Kubernetes et tout accélérateur

Red Hat a annoncé Red Hat AI 3, une évolution majeure de sa plateforme d’entreprise en intelligence artificielle qui intègre Red Hat AI Inference Server, RHEL AI et OpenShift AI. L’objectif est de répondre au principal défi de 2025 : opérationnaliser l’inférence à grande échelle (la phase du “faire”) et passer du prototype à la production sans devoir reconstruire l’infrastructure. La proposition repose sur trois idées clés : inférence distribuée native en Kubernetes (llm-d), une plateforme unifiée (MaaS interne, AI Hub, Gen AI Studio) et les fondations pour une IA agentique intégrant des API et des standards ouverts.

Ce mouvement intervient alors que le marché évolue du simple entraînement vers une inférence massive en temps réel et des agents autonomes. Les DSI cherchent à réduire latence, coût par token et complexité, tout en préservant la confidentialité et la liberté de choix du matériel. En toile de fond se trouve une réalité difficile : selon le projet NANDA du MIT, environ 95 % des entreprises ne constatent pas encore de retours mesurables malgré un investissement cumulé de 40 milliards de dollars. Red Hat AI 3 vise à combler ce fossé avec une plateforme ouverte et multivendor supportant tous les modèles sur tout type d’accélérateur, du centre de données au cloud public, en passant par les environnements souverains et l’edge.


De l’entraînement à l’« agir » : llm-d transforme vLLM en un service distribué, natif pour Kubernetes

La nouveauté technique la plus notable est la mise à disposition générale de llm-d dans OpenShift AI 3.0. Basé sur le moteur vLLM, llm-d réinvente la manière dont les grands modèles de langage (LLM) sont servis sous Kubernetes :

  • Inférence distribuée et intelligente : orchestration via Kubernetes et Gateway API Inference Extension, priorisation inférence-aware, serving désagrégé et planification adaptée aux fluctuations de charge (pics de pré-remplissage, décodage et fenêtres de contexte).
  • Composants ouverts pour la performance : intégration avec NVIDIA Dynamo (NIXL) pour transfert KV, et avec DeepEP pour la communication Mixture-of-Experts (MoE). Destiné aux modèles volumineux et aux charges avec haut fan-out.
  • “Well-lit Paths” : itinéraires prescriptifs pour standardiser déploiement et exploitation, évitant que les équipes ne construisent des piles fragiles de divers outils.
  • Accélérateurs croisés : support pour NVIDIA et AMD, en vue de maximiser l’utilisation du matériel déjà acquis.

Concrètement, llm-d combine le meilleur de vLLM (performance élevée sur single-node) en en faisant un service d’inférence cohérent et évolutif, doté de monitoring, fiabilité et planification de capacité orienté ROI. Le message pour la direction est clair : prévisibilité et contrôle des coûts et performance quand les tokens sont comptés par millions.


Une plateforme unifiée pour la collaboration (MaaS interne, AI Hub et Gen AI Studio)

Red Hat AI 3 propose une expérience plateforme conçue pour que l’ingénierie plateforme et les équipes IA travaillent sur un même plan :

  • Model as a Service (MaaS) interne : IT peut agir comme fournisseur de modèles pour l’organisation, en proposant modèles communs depuis un point central avec accès à la demande pour applications et développeurs. Permet gestion des coûts, réutilisation, et prend en charge des cas où les services publics sont inadaptés pour des raisons de confidentialité ou de souveraineté.
  • AI Hub : un centre pour explorer, déployer et gérer les actifs IA : catalogue de modèles (validés/optimisés), enregistrement du cycle de vie et un environnement de déploiement avec configuration et observation.
  • Gen AI Studio : un environnement hands-on pour prototyper : un playground sans état pour tester prompts, ajuster paramètres, créer des chats ou des RAG, et un endpoint pour découvrir des modèles et des serveurs MCP (Model Context Protocol), essentiel lorsque les modèles doivent appeler des outils externes.

En complément, Red Hat propose un ensemble de modèles validés (ex : gpt-oss, DeepSeek-R1, Whisper pour la voix, Voxtral Mini pour agents vocaux) facilitant un début sans rechercher de artefacts sur Internet ou lutter avec des compatibilités.


Préparer le terrain pour une IA agentique (Llama Stack, MCP et personnalisation modulaire)

La seconde évolution concerne l’agentique. Red Hat OpenShift AI 3.0 introduit :

  • Une couche API unifiée basée sur Llama Stack : aligne le développement sur protocoles compatibles OpenAI et réduit les frictions entre outils.
  • L’adoption précoce du MCP (Model Context Protocol) : un standard émergent permettant aux modèles d’interagir avec des outils externes de façon sécurisée et standardisée, clé pour les agents capables d’orchestrer des actions.
  • Kit de personnalisation modulaire : construit sur InstructLab, avec librairies Python pour traitement de données (ex : Docling pour convertir des documents non structurés en formats compréhensibles par IA), génération de données synthétiques, fine-tuning et un Centre d’évaluation intégré pour mesurer et valider les résultats. L’idée est que le client puisse affiner son IA avec ses propres données, avec contrôle et traçabilité.

Si 2025 marque le début de la fièvre des agents, 2026 exigera une infrastructure d’inférence capable de supporter des flux autonomes complexes. Red Hat AI 3 place sa plateforme comme le lieu où ce logiciel se développe, se gouverne et s’opère à grande échelle.


Pourquoi cela importe aux CIOs et équipes plateforme

  1. Du silo au plan commun. L’inférence ne sera plus une service ponctuel dans une VM, mais une capacité partagée au sein du cluster : politiques, quotas, télémétrie et SLO comparables à tout autre workload.
  2. Accélérateur-indépendant. La promesse du “tout modèle, tout accélérateur” se traduit par moins verrouillage et une durée de vie plus longue des investissements dans Instinct (AMD) ou NVIDIA, avec des stacks ouverts comme ROCm.
  3. Coût et latence. Le serving désagrégé, la planification “inférence-aware” et l’utilisation de bibliothèques ouvertes haute performance réduisent le coût par token et stabilisent la latence.
  4. Conformité et souveraineté. La plateforme s’implante dans datacenter, cloud public, environnements souverains et edge, alignant confidentialité et juridiction avec les exigences sectorielles.
  5. Standards. S’engager sur Kubernetes, vLLM, Gateway API, MCP et Llama Stack minimise le risque de bâtir des îlots technologiques.

Ce que disent les partenaires (et leurs implications)

  • AMD souligne la combinaison de EPYC + Instinct + ROCm, en cohérence avec la stratégie multivendor de Red Hat : tout ne sera pas NVIDIA, surtout pour les charges I/O-bound ou où le TCO prime.
  • NVIDIA met l’accent sur l’inférence accélérée et la compatibilité avec Dynamo/NIXL pour le transfert KV, ainsi que sur le support de bibliothèques favorisant MoE.
  • Clients comme ARSAT (infrastructure de connectivité en Argentine) mettent en évidence deux points : souveraineté des données et temps de mise en production (un cas où la mise en œuvre a été réalisée en 45 jours), illustrant que la plateforme ne se limite pas au déploiement, mais couvre tout le cycle de vie.
  • Analystes (IDC) anticipent 2026 comme tournant majeur : la métrique sera la répétabilité des résultats avec une inférence efficace. La “mille supplémentaire” sera fournie par ceux qui unifieront l’orchestration de charges de plus en plus sophistiquées en cloud hybride.

Ce qu’il faut surveiller dans les semaines à venir pour l’évaluation de Red Hat AI 3

  • Benchmarks et playbooks de llm-d sur OpenShift AI 3.0 : latence SLO, débit selon le type de requête (pré-remplissage/décodage), coût par 1000 tokens, et cache KV partagé entre sessions.
  • Compatibilité avec votre parc d’accélérateurs (NVIDIA/AMD), versions de drivers et ROCm/CUDA, ainsi que l’observation intégrée (métriques de file d’attente, mémoire, fragmentation).
  • Catalogue de l’AI Hub et pipeline de validation (qualité, biais, guardrails) pour les environnements réglementés.
  • Intégration MCP avec vos outils internes (recherche documentaire, APIs, RPA) et sécurité dans l’utilisation des agents.
  • Gouvernance des modèles : cycle complet (enregistrement → déploiement → rollbackA/Bdénigration) et traçabilité pour audit.

Une réflexion essentielle : la valeur devient tangible quand l’inférence devient “ordinaire”

L’annonce insiste à juste titre sur le fait que l’inférence — et non l’entraînement héroïque — est ce qui paye les factures. Le défi consiste à rendre cette étape prévisible, visible, optimisable et réplicable. Si Red Hat AI 3 parvient à faire de la mise en service des modèles sous Kubernetes quelque chose d’aussi routinier que le déploiement d’un microservice, la conversation passera de “quel modèle ?” à “quel SLA / SLO pour l’activité ?”. C’est à ce moment-là que le ROI, que le projet NANDA du MIT juge manquant, pourra réellement être mesuré.

En résumé

Red Hat AI 3 représente avant tout une baffe en faveur de la standardisation de l’IA en entreprise : llm-d pour l’inférence distribuée avec vLLM sur Kubernetes, une plateforme unifiée qui combine catalogue, service et studio, et une ouverture résolue (Llama Stack, MCP, ROCm, Gateway API) pour faire vivre modèles et agents sur toutes les infrastructures avec tout type d’accélérateur. Le défi de 2025–2026 ne sera plus de faire plus de démos, mais de convertir cette capacité en SLA, SLO et coûts par token crédibles. La direction indique la voie, du moins.


Questions fréquentes

En quoi llm-d se distingue-t-il de simplement utiliser vLLM dans un pod ?
llm-d élève vLLM à un système de service d’inférence distribué intégré à Kubernetes : orchestration inférence-aware, désagrégation du service, compatibilité avec Gateway API, transfert KV accéléré et bibliothèques MoE ; et en plus, “Well-lit Paths” (itinéraires prescriptifs) pour un déploiement à grande échelle fiable.

Comment le Modèle comme Service interne se positionne-t-il face à l’utilisation d’APIs externes ?
Le MaaS interne permet de centraliser modèles, de contrôler coûts et réutiliser les actifs, tout en garantissant confidentialité et souveraineté. Les APIs externes restent pertinentes pour des pics ou des cas peu critiques, mais le noyau du métier privilégie souvent des données internes et une traçabilité maîtrisée.

Quels accélérateurs Red Hat AI 3 supporte-t-il ?
La plateforme est multivendor et supporte NVIDIA et AMD avec stacks ouverts (ROCm, bibliothèques comme Dynamo/NIXL) visant à maximiser la performance pour la consommation électrique déjà en place.

Que contribuent MCP et la couche Llama Stack aux agents ?
MCP normalise l’utilisation des outils externes par les modèles, clé pour des agents modulaires et sûrs. La API unifiée basée sur Llama Stack aligne les protocoles avec l’écosystème, y compris OpenAI, réduisant ainsi la friction lors de l’intégration et la portabilité entre fournisseurs et environnements.

Source : redhat

le dernier