AMD et Intel préparent ACE pour accélérer l’intelligence artificielle sur x86

Intel et AMD scellent une trêve technologique : FRED, AVX10 et APX, les armes conjointes de x86 face à Arm et Qualcomm

AMD et Intel ont franchi une étape peu courante dans une industrie habituée à la compétition à chaque nouvelle génération de processeurs : ils collaborent sur une extension commune visant à accélérer les charges de travail en Intelligence Artificielle (IA) au sein de l’architecture x86. Cette initiative, nommée ACE (Extensions de Calcul IA), cherche à faire de l’accélération matricielle une capacité standard et partagée pour les futurs chips x86.

Ce projet s’inscrit dans le cadre du groupe d’experts x86 Ecosystem Advisory Group, créé par AMD, Intel et d’autres partenaires pour renforcer la compatibilité et l’évolution de l’écosystème x86 face à la montée en puissance d’Arm, des accélérateurs spécialisés et du développement de l’IA. Le livre blanc technique d’ACE, daté du 15 avril 2026, présente cette extension comme un moyen d’améliorer la performance, la scalabilité et l’efficacité énergétique lors de opérations de multiplication matricielle, une composante essentielle pour l’entraînement et l’inférence de modèles de langage et de réseaux neuronaux.

Pourquoi ACE est important pour l’écosystème x86

La multiplication de matrices occupe une place centrale dans l’intelligence artificielle moderne. Elle intervient lors de la propagation directe, de la rétropropagation, dans la mise à jour des poids, les couches de réseaux neuronaux et dans les primitives utilisées dans les modèles de langage. Bien que des extensions vectorielles comme AVX10 permettent déjà de traiter ces calculs, AMD et Intel reconnaissent dans le document que la densité de calcul et la scalabilité peuvent être insuffisantes pour certaines charges spécifiques.

ACE vise à combler cette lacune sans remanier l’architecture x86 existante. L’approche consiste à s’intégrer avec AVX10, plutôt que de créer une technologie complètement isolée, ce qui permettrait de réutiliser une partie du travail effectué par les compilateurs, bibliothèques, environnements d’exécution et optimisations déjà en place, réduisant ainsi la charge pour les développeurs et éditeurs de logiciels.

Le concept s’appuie sur la technique du produit extérieur, qui augmente la densité de calcul par rapport aux opérations vectorielles traditionnelles. Selon le livre blanc, une opération ACE de produit extérieur peut offrir jusqu’à 16 fois plus de densité de calcul qu’une opération équivalente de multiplication-accumulation en AVX10, tout en utilisant les mêmes vecteurs d’entrée.

Aspect technique Ce que propose ACE
Intégration Se comporte comme une extension naturelle d’AVX10
Opération de base Produit extérieur pour l’accélération matricielle
Densité de calcul Jusqu’à 16 fois plus performante qu’une opération AVX10 équivalente
Formats natifs INT8, OCP FP8, OCP MXFP8, OCP MXINT8, BF16
État des structures 8 registres tile et un registre de mise à l’échelle de bloc
Interfaces logicielles Compilateurs, débogueurs, profileurs, bibliothèques HPC et frameworks IA

Ce positionnement a une lecture stratégique. AMD et Intel ne cherchent pas à transformer chaque CPU x86 en une GPU ou une NPU, mais souhaitent doter le processeur généraliste de meilleures outils pour exécuter des tâches critiques en IA. Cela peut être particulièrement bénéfique dans les laptops, stations de travail, serveurs, environnements HPC et systèmes où il n’est pas toujours pertinent de déléguer chaque opération à du matériel spécialisé.

Du portable au centre de données

Un des messages clés du livre blanc concerne l’échelle. ACE est présenté comme une architecture d’accélération matricielle applicable aussi bien sur des portables que sur des serveurs d’entreprise. L’objectif est d’offrir aux développeurs une base plus cohérente dans l’univers x86, évitant ainsi la dépendance à des solutions fragmentées ou des extensions incompatibles entre fabricants.

Il ne s’agit pas de substituer totalement les GPU, accélérateurs IA ou NPUs. Les charges importantes d’entraînement ou de nombreuses tâches d’inférence continueront d’utiliser du matériel spécialisé. Toutefois, ACE pourrait réduire la friction lors d’opérations hybrides, comme le prétraitement, les kernels auxiliaires, l’inférence locale, ou dans certains cas où la CPU doit encore jouer un rôle important dans le traitement des données.

Le document indique aussi qu’ACE sera présenté au logiciel comme une nouvelle « palette » dans le cadre de l’architecture AMX, permettant de réutiliser une partie du modèle de programmation du système et du support système d’exploitation associé. Cette démarche facilite l’adoption rapide, surtout pour les logiciels de bas niveau.

Concernant les formats de données, ACE adopte des formats populaires en IA tels que INT8, BF16, ainsi que ceux spécifiques OCP MX. La prise en charge de OCP MX est particulièrement intéressante car elle inclut un escaling de bloc en ligne, une technique essentielle pour les formats de faible précision limitant le besoin en bande passante et en mémoire, tout en maintenant une qualité acceptable dans les modèles modernes.

La précision réduite est devenue un enjeu majeur pour rendre l’IA plus efficace. Opérer en formats à faible précision n’empêche pas toujours d’obtenir de bonnes performances, si le modèle conserve une qualité acceptable avec INT8, FP8, BF16 ou d’autres formats compacts. ACE intègre des mécanismes de conversion et d’empaquetage pour optimiser le traitement de ces données, y compris avec des formats allant de 2 à 7 bits via l’instruction VUNPACKB.

Une alliance technique avec un regard politique

Le fait qu’AMD et Intel collaborent sur une extension de cette envergure n’est pas anodin. Ces deux géants sont en compétition dans les processeurs de bureau, portables, serveurs et stations de travail, mais partagent un intérêt commun : maintenir x86 comme plateforme attractive pour les développeurs dans l’ère de l’IA.

Depuis des années, la force de x86 repose sur sa compatibilité, sa vaste base installée et la maturité de son écosystème logiciel. Aujourd’hui, ces atouts doivent cohabiter avec de nouvelles exigences : efficacité énergétique, accélération des modèles, support de formats à faible précision, capacité à gérer des charges hétérogènes. ACE est une réponse qui émerge directement de la conception de l’architecture.

La standardisation pourrait constituer un avantage concurrentiel. Si AMD et Intel mettent en œuvre des capacités compatibles, cela réduira le besoin pour les développeurs d’adapter leur travail selon le fournisseur. En théorie, une bibliothèque d’apprentissage automatique, un framework comme PyTorch ou TensorFlow, ou une librairie scientifique comme NumPy ou SciPy pourrait, à terme, bénéficier d’accélérations communes.

Le livre blanc indique que le travail pour une mise en œuvre logiciel est déjà lancé, avec des intégrations initiales dans les compilateurs, débogueurs et profileurs. Les étapes suivantes viseront à optimiser les kernels, enrichir les bibliothèques de deep learning et HPC, préparer primitifs pour les modèles de langage et améliorer les runtimes d’apprentissage automatique.

Ce qu’il reste à découvrir

Pour l’instant, ACE reste une proposition technique. Il manque encore des détails importants : quelles générations de processeurs l’intégreront, à quels niveaux de performance, quelles différences apparaîtront entre AMD et Intel, comment le système d’exploitation supportera cette extension, et dans combien de temps les principales bibliothèques pourront en tirer parti de manière stable.

Il faut aussi considérer comment ACE s’intègrera avec le hardware moderne : portables combinant CPU, GPU, NPU et autres accélérateurs, serveurs avec CPU, GPU, FPGA, SmartNICs ou accélérateurs spécialisés. La CPU doit améliorer sa capacité matricielle sans dupliquer inutilement certains traitements effectués par d’autres composants.

Les opportunités existent notamment dans les usages intermédiaires : inférence locale modérée, opérations auxiliaires, charges scientifiques, préparation de données, petits modèles, automatisation d’entreprise, et applications où le coût de transférer des données vers d’autres accélérateurs est un frein. Si ACE parvient à réduire cette friction, il renforcera la position du x86 dans de nombreux contextes IA.

Le vrai défi sera l’adoption. Une extension d’instructions ne devient courante que si elle est supportée par de véritables processeurs, intégrée dans les systèmes d’exploitation et accessible aux développeurs par des bibliothèques matures. Si AVX10 a tenté d’orienter le futur vectoriel de x86, ACE cherche à compléter cette vision en apportant une capacité matricielle essentielle pour limiter la dépendance aux accélérateurs externes dans le domaine de l’IA.

AMD et Intel ont compris que collaborer sur un socle commun ne supprime pas leur compétition. Chacune continuera à différencier ses produits par le design, la fréquence, la consommation, les caches, les procédés de fabrication, le packaging et les plateformes. Mais si ACE devient un standard, les deux pourraient conforter leur position tout en assurant que x86 demeure une architecture flexible, adaptée au développement logiciel dans un marché où tout n’est pas acquis.

Questions fréquentes

Qu’est-ce qu’ACE dans les processeurs x86 ?
ACE, ou Extensions de Calcul IA, est une proposition d’extension pour x86, développée conjointement par AMD et Intel, pour accélérer les opérations de multiplication matricielle utilisées en IA.

ACE remplace-t-elle une GPU ou une NPU ?
Non. ACE vise à améliorer la capacité matricielle du CPU x86. Les GPU, NPU et autres accélérateurs spécialisés resteront essentiels pour les charges lourdes d’entraînement et d’inférence.

Quelle est la relation entre ACE et AVX10 ?
ACE s’intègre avec AVX10, réutilisant notamment ses registres vectoriels comme entrée pour les opérations matricielles. L’objectif est d’étendre la puissance de l’architecture x86 sans bouleverser le modèle logiciel existant.

Quels formats de données sont supportés par ACE ?
Le document technique mentionne le support natif pour INT8, BF16, ainsi que pour OCP FP8, OCP MXFP8 et OCP MXINT8, des formats importants pour l’IA à faible précision.

via : X Twitter

le dernier