Huawei libère Flex:ai, sa plateforme open source pour exploiter au maximum les puces IA et réduire la dépendance à NVIDIA

Huawei libère Flex:ai, sa plateforme open source pour exploiter au maximum les puces IA et réduire la dépendance à NVIDIA

Huawei redouble d’efforts en pleine guerre des puces pour l’intelligence artificielle. La société chinoise a présenté Flex:ai, une plateforme d’orchestration open source conçue pour exploiter au maximum les GPU, NPU et autres accélérateurs, avec la promesse d’augmenter leur taux d’utilisation moyen d’environ 30 % et de rapprocher la Chine d’une infrastructure IA propre et compétitive.

Cette annonce s’accompagne d’un récit ambitieux : les médias chinois la situent dans une stratégie qui inclut même le développement de puces IA analogiques qui, sur le papier, pourraient être jusqu’à 1 000 fois plus rapides que les GPU de NVIDIA pour certaines tâches. Un message destiné autant au marché qu’à la scène géopolitique.

Qu’est-ce que Flex:ai et quels problèmes résout-il ?

Flex:ai est un logiciel d’orchestration construit sur Kubernetes, le standard de fait pour gérer des applications contenarisées au sein de grands clusters. Au lieu de se concentrer uniquement sur les CPU, la plateforme agit comme une couche de gestion pour GPU, NPU et autres accélérateurs de différents fabricants, avec deux idées clés :

  • Grouper et « découper » les accélérateurs : une même carte peut être divisée en plusieurs unités de calcul virtuelles, permettant à plusieurs charges de travail IA de s’exécuter en parallèle sans gaspiller de ressources.
  • Exploiter les ressources inutilisées : Flex:ai peut repérer des processeurs sous-utilisés dans différents nœuds du cluster et les réaffecter dynamiquement aux tâches IA qui en ont besoin.

Au cœur du système se trouve Hi Scheduler, un planificateur intelligent qui décide quelle tâche s’exécute sur quel accélérateur, comment répartir un GPU ou un NPU entre plusieurs travaux, et quand il est judicieux de regrouper des ressources pour entraîner ou inférer un modèle volumineux. Selon Huawei, cette approche permet d’augmenter en moyenne la taux d’utilisation des puces IA d’environ 30 %, une donnée très significative dans un contexte où la capacité de calcul est coûteuse et rare.

Un Kubernetes « amélioré » pour l’ère de l’IA

Concrètement, Flex:ai fonctionne comme une extension de Kubernetes adaptée aux besoins de l’IA moderne :

  • Comprend GPU et NPU comme des ressources de première classe, et non simplement comme des « accessoires » aux pods.
  • Permet d’exécuter plusieurs modèles ou tâches sur la même carte sans avoir à la réserver entièrement pour un seul travail petit.
  • Facilite la consolidation de clusters hétérogènes avec des accélérateurs de fournisseurs différents, ce qui est crucial dans un contexte de sanctions et de restrictions à l’exportation affectant l’accès au matériel de dernière génération.

Pour les administrateurs systèmes et les équipes MLOps, la promesse est claire : moins de GPU « au repos » et plus de travail utile par euro investi en hardware.

Le contexte : sanctions, chips locaux et « démocratisation » de l’IA

Le lancement de Flex:ai s’inscrit dans le contexte de la guerre technologique entre les États-Unis et la Chine. Les restrictions à l’exportation des GPU les plus avancés de NVIDIA obligent les entreprises chinoises à miser sur :

  • Chips propres, comme les accélérateurs de la famille Ascend de Huawei.
  • Logiciels d’optimisation permettant d’extraire le maximum du matériel disponible.

Flex:ai correspond justement à cette seconde catégorie : si l’accès au dernier chip NVIDIA est limité, il faut exploiter au mieux ceux que l’on a. Et faire cela avec une approche open source pour attirer universités, startups et développeurs souhaitant construire dessus. Huawei prévoit de publier Flex:ai via sa communauté de développeurs ModelEngine, en collaboration avec des universités telles que Shanghai Jiao Tong, Xi’an Jiaotong ou Xiamen.

L’entreprise renforçait déjà cette stratégie avec d’autres outils comme Unified Cache Manager (UCM), conçu pour optimiser l’accès aux données à différents niveaux de mémoire et réduire la dépendance aux mémoires à haute largeur de bande provenant de fournisseurs étrangers.

Et où entrent les puces analogiques « 1 000 fois plus rapides » ?

L’affirmation selon laquelle la Chine travaille sur une puce IA analogique jusqu’à 1 000 fois plus rapide que les GPU de NVIDIA émane de recherches parallèles menées par des universités et centres de R&D chinois, explorant des architectures non conventionnelles pour accélérer les réseaux neuronaux.

Dans ce contexte, Flex:ai ne désigne pas la puce elle-même, mais la couche logicielle qui pourrait :

  • Orchestrer simultanément GPU numériques, NPU et futurs chips analogiques dans un même cluster.
  • Abstraire la complexité de chaque type de matériel et le présenter comme un seul pool de calcul pour les équipes de données.
  • Permettre aux applications IA de bénéficier de cette nouvelle hardware sans nécessiter une réécriture complète du stack.

Autrement dit, si ces puces analogiques arrivent en production et s’intègrent dans les centres de données, il faudra une plateforme pour les combiner efficacement avec les autres accélérateurs. Huawei tente d’anticiper ce scénario avec Flex:ai.

Un concurrent direct à Run:AI et autres

Ce projet évoque inévitablement des plateformes occidentales comme Run:AI, acquise par NVIDIA en 2024, qui propose également une orchestration avancée des clusters GPU pour améliorer leur utilisation et simplifier la gestion des équipes MLOps.

Les ressemblances sont évidentes :

  • Division logique des GPU en « tranches » pour plusieurs travaux.
  • Planification intelligente des files d’attente pour entraînement et inférence.
  • Support pour de grands groupes d’applications contenarisées dans Kubernetes.

La grande différence réside dans l’approche stratégique : alors que Run:AI s’intègre dans l’écosystème NVIDIA, Flex:ai se présente comme une pièce maîtresse d’un écosystème souverain destiné à permettre à la Chine de continuer à entraîner et déployer de grands modèles IA avec une dépendance moindre envers les fournisseurs américains.

Ce que cela signifie pour les entreprises, les centres de données et les équipes IA

Si Huawei tient ses promesses, Flex:ai pourrait avoir un impact concret sur la façon dont les clusters IA sont dimensionnés et gérés :

  • Meilleur retour sur investissement matériel : une augmentation de 30 % de l’utilisation des GPU et NPU peut se traduire par moins de serveurs pour le même travail ou une capacité accrue sans budget supplémentaire.
  • Réduction des files d’attente et des temps d’attente : en découpant les cartes pour adapter les ressources à la taille réelle de chaque tâche, on élimine les goulets d’étranglement où de nombreuses petites charges bloquent des GPU entiers.
  • Plus de flexibilité en R&D : les équipes peuvent lancer des expériences en parallèle sans se concurrencer, en utilisant des fractions de GPU plutôt que de réserver des nœuds entiers.
  • Isolation et multi-tenancy : la virtualisation des accélérateurs facilite le partage de l’infrastructure entre différentes équipes ou clients, avec des garanties d’isolation.

Pour les administrateurs systèmes et responsables de centres de données, la conclusion est claire : le défi n’est plus seulement d’acquérir des puces, mais de les utiliser intelligemment. L’orchestration sera aussi stratégique que le silicium lui-même.

Une étape supplémentaire dans la course à l’infrastructure IA

Flex:ai constitue, en quelque sorte, un nouveau maillon dans le mur que Huawei construit depuis des années autour de son écosystème IA : chips Ascend, modèles Pangu, outils de compilation, et désormais une couche d’orchestration de clusters qui veut rivaliser avec les meilleures solutions du marché.

Reste à voir dans quelle mesure la communauté internationale adoptera le projet au-delà de la Chine et quel impact réel auront le logiciel et les futurs chips analogiques dans la pratique, au-delà des titres accrocheurs. Mais le message de fond est clair : dans la course à l’IA, le logiciel de gestion du calcul est aussi stratégique que le calcul lui-même, et Huawei ne compte pas rester en dehors de cette bataille.

source : scmp

le dernier