La course à la déploiement de l’Intelligence Artificielle en production ne se résume pas seulement au choix du modèle. De plus en plus, la discussion s’oriente vers l’infrastructure : quel est le coût de la mise en service d’un modèle, sa consommation énergétique, la gestion à grande échelle, et le niveau de contrôle et conformité réglementaire qu’une organisation peut garantir. Dans ce contexte, Red Hat et la société sud-coréenne Rebellions ont annoncé une nouvelle proposition : Red Hat OpenShift AI “powered by Rebellions NPUs”, une plateforme validée de bout en bout qui combine le logiciel d’inférence de Red Hat avec des unités de traitement neuronal (NPUs) conçues pour exécuter des charges de travail IA avec une efficacité énergétique améliorée.
Annoncée le 10 décembre 2025 depuis Séoul, cette initiative s’inscrit dans la stratégie de Red Hat d’offrir “n’importe quel modèle, n’importe quel accélérateur, n’importe quel nuage”. L’objectif est clair : élargir le spectre des architectures au-delà des déploiements centrés uniquement sur les GPU, à une époque où les projets d’IA d’entreprise passent du laboratoire à l’application concrète, tout en confrontant des limites pratiques telles que le coût, la complexité opérationnelle, la disponibilité hardware ou encore les exigences réglementaires.
Pourquoi maintenant : de l’expérimentation à la “mise en service série” de l’IA
Au cours de la dernière année, de nombreuses organisations ont compris que l’entraînement n’était qu’une partie du défi. La majorité du travail —et des coûts— survient lors de la mise en production des modèles dans des applications réelles : assistants internes, automatisation des processus, analyse documentaire, support client, ou recherche sémantique dans des référentiels d’entreprise. Cette phase, l’inférence, requiert stabilité, prévisibilité et efficience — des qualités que les environnements GPU ne garantissent pas toujours de façon optimale si l’on souhaite évoluer tout en maîtrisant les coûts.
Red Hat et Rebellions ciblent précisément cette étape : l’industrialisation de l’inférence. Leur argument est que les environnements GPU, à eux seuls, peuvent s’avérer insuffisants pour atteindre un équilibre entre performance et efficacité à l’échelle, notamment dans les centres de données où la puissance par rack, la refroidissement et la facture électrique deviennent des variables cruciales.
Ce qu’apporte une NPU : efficacité énergétique axée sur l’inférence
Les NPUs ne constituent pas une innovation conceptuelle récente, mais leur importance croît avec le développement de l’IA générative. Rebellions affirme que leur architecture est optimisée pour l’inférence, ce qui se traduit par une meilleure efficacité énergétique par rapport aux GPU « traditionnels », impactant directement les coûts de déploiement et d’exploitation, tant au niveau des serveurs que des racks.
Il est essentiel de souligner que la discussion ne se limite plus à “combien de tokens par seconde” un système peut générer, mais porte désormais sur le coût de maintien de ce rendement en continu, en toute garantie, sans faire exploser la consommation. Sur le plan commercial, cette efficacité devient un levier pour passer de pilotes à des déploiements à grande échelle, notamment lorsque la nécessité de plusieurs instances, de redondance et de scalabilité est présente.
Une solution hardware “validée” pour le model serving
Un des points forts soulignés par les deux partenaires est qu’il ne s’agit pas d’une intégration partielle, mais d’une solution intégrée et validée “de hardware à model serving”. La proposition combine :
- Red Hat OpenShift AI, plateforme de référence pour développer, déployer et gérer des charges de travail IA sur Kubernetes.
- La pente logicielle de Rebellions, opérant nativement sur OpenShift AI pour réduire la friction et accélérer les déploiements.
- Un composant clé pour la gestion opérationnelle : le Rebellions NPU Operator, certifié pour Red Hat OpenShift, visant à rendre la gestion des NPUs aussi naturelle que celle des GPU au sein d’un cluster.
La promesse principale est de réduire le coût caché de l’IA : pas seulement le hardware, mais aussi le temps d’intégration, les couches intermédiaires et la complexité d’opérer différents accélérateurs dans des environnements hybrides. Red Hat et Rebellions proposent qu’avec cette validation conjointe, les entreprises puissent déployer plus rapidement l’inférence, avec un support conforme aux standards de la plateforme.
vLLM et la transition vers l’inférence distribuée
Sur le plan technique, la solution évoque l’utilisation de vLLM — un moteur d’inférence populaire dans l’écosystème des modèles de langage — intégré avec des solutions NPU à l’échelle de racks pour du traitement distribué. Cela permet à la plateforme de répondre aux scénarios où faire tourner un seul modèle sur un seul serveur ne suffit pas, mais où il faut scaler horizontalement pour gérer des pics de demande ou déployer plusieurs modèles et versions en parallèle.
Ce modèle est cohérent avec la façon dont les LLM sont déployés en entreprise : pas comme une simple démonstration isolée, mais comme un service requérant des exigences de latence, disponibilité et une croissance progressive. La collaboration vise des objectifs concrets : performance élevée, faible latence et efficacité énergétique améliorée en inférence, le tout dans un cadre opérationnel compatible avec Kubernetes.
Conformité, souveraineté des données et déploiement local
Au-delà de la performance, Red Hat insiste sur deux piliers fondamentaux dans les environnements réglementés : sécurité et conformité. La solution s’adresse à des organisations qui doivent garder leurs données en local et respecter des exigences réglementaires et de souveraineté des données. Concrètement, cela concerne des secteurs comme la banque, la santé, l’industrie ou l’administration publique, où déplacer des informations sensibles vers des services externes n’est pas toujours envisageable.
La proposition repose sur la capacité d’OpenShift à opérer en mode on-premise et multicloud, avec une intégration via opérateur visant à simplifier le cycle de vie : provisionner, exposer au cluster, surveiller et maintenir la cohérence opérationnelle, que ce soit au cœur du datacenter ou à la périphérie.
Une alternative au “tout GPU” visant à normaliser la diversité
Le message clé de cette annonce est une vision du marché : l’IA d’entreprise ne sera pas déployée uniquement avec une architecture dominante unique. GPU, NPUs, et autres accélérateurs coexisteront en fonction des charges, du budget, de la consommation d’énergie et de la stratégie de chaque organisation. Red Hat se positionne comme la couche qui standardise cette hétérogénéité, en évitant des solutions propriétaires fermées.
Dans cette optique, Brian Stevens, CTO IA de Red Hat, présente cette collaboration comme une étape vers une IA d’entreprise plus flexible, avec davantage de choix et moins de dépendance aux stacks monolithiques. De son côté, Sung Hyun Park, CEO de Rebellions, voit dans cet accord une réponse pragmatique aux besoins actuels : performance, coût et souveraineté, via une plateforme complète “de bout en bout” face à des approches fragmentées.
Rebellions : un acteur sud-coréen centré sur les chips d’inférence
Rebellions se définit au sein de l’écosystème Red Hat comme un constructeur de chips IA basé en Corée du Sud, spécialisé dans l’accélération pour l’inférence. La société gagne en visibilité à un moment où l’efficacité énergétique et la recherche d’alternatives aux GPU deviennent des enjeux stratégiques pour les data centers et fournisseurs de services.
Questions fréquentes
Quels avantages offre une NPU par rapport à une GPU pour les charges d’inférence de LLM en entreprise ?
Les NPUs sont souvent conçues spécifiquement pour l’inférence, avec un focus sur la maximisation de l’efficacité par watt et la réduction des coûts opérationnels à grande échelle. Leur intérêt se manifeste particulièrement lorsque la mise en service continue de modèles est indispensable, et lorsque la consommation du data center doit être maîtrisée.
Que signifie que le Rebellions NPU Operator soit certifié pour Red Hat OpenShift ?
Cela indique que l’opérateur a passé avec succès le processus de certification de l’écosystème Red Hat, garantissant une intégration supportée du hardware NPU dans le cluster : provisioning, gestion des ressources et exploitation standardisée, comme pour les GPU.
Est-il possible de déployer OpenShift AI avec NPUs en environnements on-premise pour répondre aux exigences de souveraineté des données ?
Absolument. La solution est conçue pour des organisations souhaitant conserver leurs données et modèles en interne ou dans des clouds privés/multicloud, conciliant sécurité et conformité dans des installations locales.
Quel rôle joue vLLM dans cette intégration avec les NPUs ?
vLLM sert de moteur d’inférence pour les modèles de langage, et dans ce contexte, il est mentionné comme partie intégrante d’une solution d’inférence distribuée à l’échelle de racks, visant la haute performance et la faible latence avec un déploiement horizontal.
via : redhat