Red Hat annonce avoir renforcé sa collaboration avec Amazon Web Services (AWS) afin de rendre l’inférence des modèles d’intelligence artificielle générative à grande échelle plus efficace et économique. La société open source souhaite permettre aux entreprises d’exécuter leurs modèles d’IA « sur n’importe quel matériel », en s’appuyant désormais également sur les puces spécifiques d’AWS : Inferentia2 et Trainium.
Ce partenariat vise un objectif clair : permettre aux dirigeants informatiques et responsables d’infrastructure de déployer l’IA générative en production sans que les coûts liés aux GPU ne deviennent un obstacle, ni limiter ces expérimentations au seul laboratoire.
IA générative, oui, mais sans exploser le budget
L’explosion de l’IA générative a multiplié les besoins en puissance de calcul pour l’inférence. Chaque chatbot d’entreprise, assistant interne ou moteur de recherche doté d’IA doit traiter des milliers ou millions de requêtes quotidiennes avec une faible latence. Cela se traduit par des factures d’infrastructure sans cesse croissantes.
Red Hat et AWS citent des prévisions IDC qui indiquent qu’en 2027, 40 % des organisations utiliseront des puces personnalisées — comprenant des processeurs ARM et des puces spécifiques à l’IA — pour optimiser performances et coûts. Dans ce contexte, la stratégie des deux entreprises est limpide : offrir une couche d’inférence optimisée sur les accélérateurs AWS afin que les entreprises puissent exploiter ces « siliciums sur-mesure » sans remanier toute leur architecture.
Red Hat AI Inference Server sur Inferentia2 et Trainium
Le premier pilier de cet accord consiste en Red Hat AI Inference Server, la plateforme d’inférence de la société basée sur vLLM, qui sera optimisée pour fonctionner sur les puces IA d’AWS : Inferentia2 et Trainium.
Les promesses sont doubles :
- Une couche d’inférence universelle pour « tout modèle d’IA générative », indépendamment du matériel utilisé.
- Meilleur rapport prix/performance, avec Red Hat qui évoque des améliorations de 30 à 40 % par rapport aux instances EC2 avec GPU comparables pour les déploiements en production.
Concrètement, cela signifie qu’une entreprise pouvant aujourd’hui faire tourner ses modèles sur GPU pourra migrer tout ou partie du trafic d’inférence vers Inferentia2 ou Trainium, sans modifier le reste de son architecture, simplement en s’appuyant sur cette couche proposée par Red Hat.
OpenShift, Neuron et vLLM : le « glue » technique
Le second volet de cette annonce concerne l’intégration avec l’écosystème Kubernetes et l’automatisation de Red Hat :
- Opérateur AWS Neuron pour OpenShift : Red Hat a collaboré avec AWS pour développer un opérateur Neuron destiné à Red Hat OpenShift, OpenShift AI et Red Hat OpenShift Service on AWS. Cet opérateur facilite l’utilisation des accélérateurs AWS depuis des clusters Kubernetes gérés par Red Hat, évitant des déploiements manuels complexes.
- Ansible et orchestration sur AWS : la société a également lancé la collection amazon.ai Certified Ansible Collection pour Red Hat Ansible Automation Platform, permettant d’orchestrer de façon automatisée les services d’IA sur AWS, depuis le provisioning jusqu’à la gestion quotidienne.
- Contribution à vLLM en amont : Red Hat et AWS collaborent pour optimiser un plugin pour puces IA d’AWS dans le cadre du projet vLLM, en partageant ces améliorations avec la communauté. vLLM constitue la base de llm-d, un projet open source dédié à l’inférence à grande échelle que Red Hat intègre déjà comme fonctionnalité commerciale dans OpenShift AI.
Le message de Red Hat est clair : sa stratégie reste « tout modèle, tout hardware », mais cette fois avec un focus particulier pour rendre rentable l’inférence massive sur l’infrastructure AWS.
Moins d’expérimentations, plus de déploiement industriel
Un autre aspect essentiel de cette démarche est d’accompagner les entreprises à sortir de la phase perpétuelle de « preuve de concept » en matière d’IA générative. Selon Techaisle, cité par Red Hat, la priorité évolue de l’expérimentation pure vers une opérationnalisation durable et maîtrisée de l’IA en environnement de production.
Ce changement s’appuie sur :
- une plateforme de conteneurs (OpenShift),
- une couche d’inférence (Red Hat AI Inference Server avec vLLM),
- des accélérateurs optimisés (Inferentia2/Trainium),
- et une automatisation (Ansible).
L’objectif est d’offrir un parcours complet, supporté de bout en bout, pour déployer, escalader et gouverner des modèles dans des environnements hybrides et multicloud basés sur AWS.
Disponibilités et feuille de route
Selon Red Hat, L’opérateur communautaire AWS Neuron est déjà disponible via l’OperatorHub sur Red Hat OpenShift pour les clients utilisant OpenShift ou Red Hat OpenShift Service on AWS.
Le support de Red Hat AI Inference Server pour les puces IA d’AWS est prévu initialement en developer preview dès janvier 2026. Cela permettra aux équipes techniques de commencer à tester l’intégration avec leurs propres modèles avant que cette fonctionnalité n’atteigne une stabilité opérationnelle complète.
Par ailleurs, Red Hat profite de sa présence à AWS re:Invent 2025 pour renforcer son message d’« open hybrid cloud » appliqué à l’ère de l’IA : en conservant les principes de logiciel libre et de portabilité, tout en veillant à ce que l’inférence ne fasse pas exploser les coûts par requête.
Questions fréquentes sur la collaboration Red Hat – AWS pour l’IA générative
Quel avantage pour une entreprise à utiliser Red Hat AI Inference Server avec les puces IA d’AWS ?
Principalement, un meilleur rapport prix/performance pour l’inférence à grande échelle des modèles génératifs. La couche Red Hat permet d’accéder à Inferentia2 et Trainium via une API commune, tout en conservant la flexibilité d’utiliser différents modèles sans dépendre d’une seule architecture matérielle.
En quoi cette offre diffère-t-elle de l’utilisation directe de GPU sur AWS ?
Red Hat et AWS garantissent jusqu’à 30 à 40 % d’amélioration en termes de prix/performance par rapport à des instances EC2 avec GPU comparables, grâce à des puces spécialisées et une plateforme logiciel optimisée (vLLM, Neuron, OpenShift). Sur un volume élevé de requêtes d’inférence, cette différence peut générer d’importants gains financiers.
Faut-il forcément utiliser Red Hat OpenShift pour bénéficier de cette collaboration ?
Pas nécessairement, mais OpenShift facilite énormément la gestion : l’opérateur AWS Neuron et OpenShift AI permettent un déploiement automatisé, une montée en charge simplifiée et une meilleure observabilité des modèles sur les accélérateurs AWS. Sans OpenShift, on peut exploiter une partie de la technologie, mais on perd en intégration et simplicité d’usage.
Cette stratégie est-elle uniquement pensée pour le cloud public AWS ?
Le focus de l’annonce porte sur AWS, ses puces IA et ses services managés autour d’OpenShift dans cette plateforme. Cependant, Red Hat maintient sa vision d’un cloud hybride : la même logique de plateforme et d’inférence peut s’étendre à d’autres environnements, même si ces derniers ne disposent pas des puces spécifiques d’AWS.
Source : redhat