Intel y AMD preparan ACE, l’extension x86 pour accélérer l’IA depuis le CPU

AMD et Intel célèbrent la première année du X86 Ecosystem Advisory Group avec quatre jalons de normalisation : FRED, AVX10, ChkTag et ACE

Intel et AMD ont franchi une nouvelle étape dans la modernisation de l’architecture x86 avec la spécification ACE v1.15, acronyme d’Extensions de Calcul AI. Cette nouvelle extension a vu le jour au sein du groupe de conseil du x86 Ecosystem Advisory Group, créé par les deux entreprises pour coordonner l’avenir de l’architecture et réduire la fragmentation entre plateformes. Leur objectif initial est clair : accélérer les opérations d’Intelligence Artificielle et d’apprentissage automatique directement depuis la CPU, avec une attention particulière à la multiplication de matrices et aux formats numériques à faible précision.

ACE ne doit pas être compris comme une NPU intégrée ni comme un substitut au GPU. Il s’agit plutôt d’une extension du jeu d’instructions x86 conçue pour permettre aux futures CPU d’exécuter plus efficacement certains calculs courants en IA, notamment lorsque le déplacement des données vers un accélérateur externe n’est pas rentable ou lorsque la charge requiert une faible latence, une intégration directe au système ou une exécution plus prévisible en CPU.

Le document technique présente ACE comme une extension destinée à accélérer les tâches de calcul, initialement axée sur les noyaux de multiplication de matrices et les formats de précision réduite pertinents pour les charges de travail en apprentissage automatique. La spécification ajoute un nouveau mode de registres, des instructions de transfert de données et des opérations qui combinent les registres vectoriels AVX avec des registres de type « tile », dans une architecture visant à augmenter la densité de calcul sans rompre avec la base x86 existante.

Pourquoi ACE est important pour l’avenir de x86

L’Intelligence Artificielle a déplacé une grande partie du débat vers les GPU, NPU et accélérateurs dédiés. C’est logique : les grands modèles, l’entraînement et de nombreuses charges d’inférence massive nécessitent du matériel spécialisé. Mais toutes les IA ne tournent pas sur d’énormes clusters. Il existe des inférences légères, de petits modèles, des fonctions intégrées dans des applications, des stations de travail, des serveurs généralistes et des ordinateurs portables où la CPU reste une pièce centrale.

C’est là que intervient ACE. La multiplication de matrices est une opération fondamentale dans les réseaux neuronaux, transformer et systèmes d’apprentissage automatique. Bien que AVX10 puisse déjà traiter des vecteurs et des opérations SIMD, la spécification ACE reconnaît que la densité de calcul et la scalabilité des approches vectorielles traditionnelles ont leurs limites. C’est pourquoi elle introduit des primitives matricielles avec registres « tile », plus proches de la façon dont ces charges sont traitées sur les accélérateurs modernes.

Technologie Rôle principal
AVX10 Base vectorielle moderne pour x86
ACE Extension matricielle pour IA et ML
Registres « tile » Accumulation et traitement sur des blocs bidimensionnels
Block Scale Registers Réglage par bloc pour formats OCP MX
GPU Accélération massive d’IA, graphismes et calcul parallèle
NPU Inférence locale efficace sur les systèmes clients

L’approche comporte aussi une dimension stratégique. x86 doit faire face à des architectures alternatives qui gagnent du terrain en termes d’efficacité, mobilité et accélération intégrée. Apple, Qualcomm, Arm, NVIDIA et d’autres acteurs poussent des designs intégrant de plus en plus CPU, GPU, NPU et mémoire de manière plus cohérente. Intel et AMD doivent faire évoluer x86 sans répéter les erreurs de fragmentation qui compliquèrent la vie des développeurs et fabricants.

Le précédent le plus cité est AVX-512. Pendant des années, un support partiel, inégal ou limité dans le temps a forcé les développeurs à maintenir des chemins de code spécifiques, à vérifier soigneusement les capacités et à accepter que tous les processeurs x86 ne se comportent pas de manière identique. ACE propose une autre approche : une spécification conjointe, coordonnée par Intel et AMD, pour que compilateurs, bibliothèques et frameworks puissent s’appuyer sur une base plus homogène.

Comment fonctionne ACE : tiles, AVX et faible précision

ACE combine des registres AVX avec un nouvel état de registres « tile ». Selon la spécification, le jeu de registres tile comprend huit registres bidimensionnels de 512 bits, chacun structuré en 16 lignes. Chaque ligne correspond à la taille d’un vecteur AVX-512. Dans sa version initiale, les accumulateurs se concentrent sur des types 32 bits, comme FP32 ou INT32.

L’extension inclut aussi un « Block Scale Register » de 1 024 bits, divisé en deux moitiés de 512 bits pour des échelles liées aux deux entrées des opérations. Ce registre permet d’appliquer des échelles par bloc, une technique clé dans les formats micro-scaling comme ceux définis par OCP MX. En IA, ce type de formats réduit la mémoire et le débit nécessaire, tout en maintenant des résultats exploitables dans des modèles quantifiés ou à faible précision.

Composant ACE Ce qu’il ajoute
Registres « tile » Registres bidimensionnels pour opérations matricielles
Block Scale Register Échelles E8M0 pour opérations OCP MX
Produit extérieur sur tiles Opérations de produit extérieur (outer product)
Transferts AVX-« tile » Transfert entre registres AVX et état ACE
Conversions de format Étapes entre FP32, FP16, BF16, FP8, FP6, FP4 et INT8
Gestion système État XSAVE, CPUID et support du système d’exploitation

L’opération centrale est le produit extérieur (« outer product »). En termes simples, ACE permet de prendre deux vecteurs d’entrée, de les traiter comme des matrices partielles et d’accumuler le résultat dans un tile. La spécification définit des opérations de rang 2 et rang 4 pour des formats comme BF16, INT8, FP8 et MX FP8. Ces opérations permettent de construire des multiplications de matrices plus grandes par étapes successives.

Les formats supportés illustrent les priorités industrielles. ACE couvre INT8, INT32, FP32, BF16, FP16, E8M0, FP8, MX FP8, MX FP6, MX FP4 et MX INT8. Ces formats sont choisis pour leurs usages courants en IA : FP8, BF16, FP16 et INT8 sont déjà standard en accélération IA ; FP6 et FP4 visent à réduire encore la précision afin d’économiser la mémoire et d’augmenter le débit par cycle lorsque le modèle le permet.

Format Utilisation typique en IA
FP32 Haute précision et accumulation
BF16 Entraînement et inférence à bon équilibre
FP16 Chargements à faible précision et accélération
FP8 Inférence et entraînement efficaces pour modèles compatibles
FP6 / FP4 Quantification agressive, économie de mémoire et bande passante
INT8 Inférence quantifiée
MX FP8 / MX INT8 Formats avec scalabilité par blocs
E8M0 Échelle en puissance de deux pour OCP MX

La spécification impose que les implémentations compatibles s’appuient au minimum sur une base AVX10.1. De plus, la compatibilité complète avec ACE v1 doit être détectée via CPUID et nécessite des éléments comme ACE, ACE_VSN ≥ 1, AVX10_V2_AUX, et un état XSAVE approprié pour les tiles et les registres d’échelle. Cela implique que les CPU ne suffisent pas : le support doit aussi venir du système d’exploitation, des compilateurs, des bibliothèques et des frameworks.

Ce qui ne concerne pas encore les Ryzen ou Core actuels

Il faut tempérer les attentes. ACE est une spécification d’architecture, pas une mise à jour immédiate qui augmentera le rendement d’un seul trait dans les processeurs existants. Le document lui-même indique que ces technologies sont encore en phase de conception et que les plans de produits peuvent évoluer. Autrement dit, ces instructions ne sont pas encore dans le silicium ni exploitées par le logiciel, et il reste du chemin à parcourir.

L’impact réel dépendra de plusieurs couches : d’abord, Intel et AMD devront implémenter ACE dans leurs futures générations de CPU. Ensuite, les systèmes d’exploitation devront gérer correctement le nouvel état des registres. Les compilateurs devront générer des instructions ACE. Enfin, des bibliothèques telles que BLAS, NumPy, SciPy, oneDNN, PyTorch, TensorFlow et autres couches d’inférence devront développer des routages optimisés.

Étapes nécessaires Ce qu’il faut faire
CPU Implementer hardwarelement ACE dans de nouvelles architectures
Firmware Exposer correctement CPUID et la configuration
Système d’exploitation Gérer l’état XSAVE pour tiles et BSR
Compilateurs Intégrer intrinsics, assembler et génération de code
Bibliothèques mathématiques Optimiser routines GEMM et conversions
Frameworks IA Utiliser ACE lorsque le matériel le permet
Applications Profiter concrètement en inférence et autres charges

AMD a indiqué dans ses communications du groupe Advisory que ACE s’inscrit dans un cadre plus large, avec FRED, AVX10 et ChkTag. Parallèlement, certaines sources techniques évoquent que les futures architectures AMD comme Zen 6 et Zen 7 intégreront des améliorations liées à l’IA, de nouveaux types de données et des moteurs matriciels. Mais jusqu’à l’arrivée de produits commerciaux et de mesures indépendantes, il faut rester prudent sur tout calendrier.

La compétition ne concerne pas uniquement la performance

L’aspect le plus intéressant d’ACE pourrait ne pas être ses performances brutes, mais sa capacité à coordonner. Intel et AMD ont passé des décennies à rivaliser sur x86, mais la pression de l’IA et des architectures alternatives les oblige à veiller à la compatibilité. Pour les développeurs, le pire n’est pas qu’une instruction soit difficile, c’est qu’un fournisseur implémente des variantes incompatibles ou des sous-ensembles divergents sans une trajectoire claire.

ACE tente d’offrir une base commune pour que les logiciels d’IA puissent s’optimiser sur x86 sans devoir maintenir des chemins totalement séparés. Si l’initiative aboutit, cela sera avantageux pour les serveurs, stations de travail, équipements client et systèmes embarqués où le déploiement local d’IA augmentera dans les années à venir.

Risque historique Ce que ACE cherche à éviter
Fragmentation des instructions Une base commune entre Intel et AMD
Routes de code séparées Moins de maintenance pour bibliothèques et frameworks
Soutien partiel peu fiable Detection claire via CPUID
Dépendance excessive à GPU/NPU Plus d’options pour l’inférence sur CPU
Manque de formats modernes Soutien direct pour la faible précision et OCP MX

Cela ne signifie pas qu’ACE remplacera les GPU. Pour l’entraînement de grands modèles et les charges massives d’inférence, les accélérateurs continueront à avoir l’avantage. Mais de nombreuses applications n’ont pas besoin d’un GPU dédié pour chaque opération. Sur un portable, un serveur généraliste ou dans une application s’exécutant déjà en proximité de la CPU, éviter de déplacer les données entre dispositifs peut réduire la latence et simplifier la gestion.

En IA locale, par ailleurs, l’expérience dépend de multiples facteurs, pas seulement des TOPS annoncés. La mémoire disponible, la bande passante, la latence, l’efficacité énergétique, l’intégration système et la facilité de déploiement logiciel comptent. ACE peut donner à x86 un nouvel outil pour mieux rivaliser dans ce domaine.

Une direction claire pour le processeur généraliste

On répète souvent que la CPU généraliste perd du terrain face aux accélérateurs spécialisés. La réalité est plus nuancée. La CPU continue de jouer un rôle clé : coordonner le système, exécuter la logique applicative, déplacer les données, gérer la mémoire, gérer les interruptions et traiter des charges très diverses. Si l’IA s’intègre partout, la CPU doit mieux comprendre ces modèles.

ACE répond à cette évolution. Il amène des capacités matricielles et des formats modernes d’IA au cœur de x86, sans transformer la CPU en GPU ni prétendre que toutes les charges s’y traitent. Son objectif est plus pragmatique : rendre la CPU plus efficace et prévisible pour certains calculs IA, notamment pour l’inférence, la quantification, le prétraitement, les petites opérations ou dans des scénarios où déplacer les données hors CPU n’est pas rentable.

Le succès dépendra de la mise en œuvre concrète. Si Intel et AMD appliquent ACE de façon cohérente, si le système d’exploitation le supporte bien et si les frameworks l’adoptent, x86 disposera d’une base renforcée pour l’IA locale et d’entreprise. Si le support tarde ou reste fragmenté, l’impact sera moindre.

La spécification ACE v1.15 n’améliore pas aujourd’hui les performances d’un ordinateur. Mais elle indique une direction importante : Intel et AMD ont compris que l’IA exige une évolution coordonnée de x86. Ajouter des cœurs ou augmenter la fréquence ne suffit plus. Les futures CPU devront mieux travailler avec matrices, formats à faible précision et modèles déployés au plus près de l’utilisateur.

Questions fréquentes

Qu’est-ce qu’ACE sur x86 ?
ACE, ou AI Compute Extensions, est une spécification d’Intel et AMD visant à ajouter des instructions x86 destinées à accélérer les opérations d’Intelligence Artificielle et d’apprentissage automatique, en particulier la multiplication de matrices et les formats à faible précision.

ACE remplace-t-elle une GPU ou une NPU ?
Non. ACE ne remplace pas les accélérateurs dédiés pour les charges massives. Son rôle est d’améliorer la capacité des futures CPU x86 à exécuter plus efficacement certaines opérations d’IA.

Quels formats sont supportés par ACE ?
La spécification inclut le support de INT8, INT32, FP32, BF16, FP16, FP8, MX FP8, MX FP6, MX FP4, MX INT8 et E8M0 pour le scalage par blocs.

Est-il prévu que les processeurs actuels soient mis à jour avec ACE ?
Non. ACE ne sera pas une mise à jour pour les CPU existants. Elle nécessite un support en silicium, ainsi que dans le système d’exploitation, les compilateurs, les bibliothèques et frameworks.

le dernier