Une nouvelle percée dans le domaine de l’intelligence artificielle remet en cause la domination historique des GPU face aux CPU. Intel a récemment démontré que ses processeurs traditionnels, grâce à un redimensionnement logiciel utilisant des microkernels optimisés, peuvent désormais exécuter des modèles de langage de grande taille (LLM) à des vitesses proches de celles des célèbres GPU NVIDIA A100, longtemps considérés comme la référence pour l’entraînement et l’inférence en IA.
Ce progrès ne résulte pas d’un nouveau type de puce révolutionnaire, mais d’un changement de paradigme dans la multiplication des matrices au sein même du CPU. En développant des microkernels spécifiquement conçus pour exploiter au maximum les instructions AVX2 et en adoptant de nouvelles structures de gestion des données, Intel a permis aux modèles quantifiés à 1 et 2 bits d’atteindre une performance jusqu’à sept fois supérieure à l’inférence conventionnelle en 16 bits.
Jusqu’à présent, la norme pour l’inférence efficace des LLM reposait sur des poids en 16 bits (BF16 ou FP16), voire en 4 bits avec des bibliothèques telles que bitnet.cpp ou llama.cpp. Ces techniques permettaient de réduire la consommation mémoire et énergétique, mais au prix d’une perte de précision. Intel a innové en créant des microkernels pouvant traiter ces modèles en 1 ou 2 bits, compactant ainsi considérablement l’information. Lorsqu’ils sont exécutés sur des processeurs modernes x86, ces microkernels permettent un gain d’efficacité impressionnant, tout en maintenant la qualité du modèle.
Les tests montrent que, malgré cette réduction extrême, le rendement final reste élevé : pour des modèles comme Llama3-8B, la vitesse d’inférence s’est accrus de jusqu’à 5,8 fois comparé à l’utilisation de 16 bits. Sur d’autres modèles tels que MobileLLM-1.5B, la performance a été multipliée par 4,4. En pratique, des processeurs Intel Core Ultra 9 285K, 7 255H et 7 258V ont permis d’approcher ces résultats, avec des vitesses oscillant entre 82 et 110 tokens par seconde, contre 250 pour la GPU NVIDIA A100. La différence s’explique principalement par l’immense largeur de bande mémoire des GPU, exploitant la mémoire HBM2E, contre la DDR5 des CPU.
L’approche d’Intel repose sur la technique dite “up-convert and compute” : stocker les poids en 1 ou 2 bits, puis durant l’inférence, les convertir en entiers 8 bits pour traiter avec des opérations FMA, optimisées via AVX2. Pour minimiser le coût de cette conversion, un format particulier, VNNI4-interleaved, a été employé, associé à des bibliothèques comme libxsmm et frameworks tels que PyTorch-TPP, prouvant la faisabilité d’une intégration pratique de ces microkernels.
Ce développement ouvre des perspectives révolutionnaires : il devient envisageable d’exécuter des modèles avancés de traitement du langage même sur des appareils modestes comme des portables ou ordinateurs classiques, sans nécessiter une carte graphique dédiée. Cela pourrait démocratiser l’accès à l’IA, réduire la consommation énergétique, et permettre l’utilisation d’IA en local, notamment dans des scénarios de périphérie (edge computing) avec des dispositifs à faible puissance.
Selon le rapport d’Intel publié sur arXiv en 2025, cette avancée marque un pas significatif vers une IA accessible à tous, sans dépendance aux hardware spécialisés coûteux. Bien que la latence et la parallélisation extrêmes des GPU restent irréplicables sur CPU, pour certains usages inférentiels, la CPU pourrait désormais suffire.
Par ailleurs, Intel prévoit d’étendre ces optimisations aux architectures ARM, en utilisant des instructions AArch64 et SVE, permettant aux appareils mobiles de bénéficier de ces performances. En s’appuyant notamment sur des vecteurs jusqu’à 512 bits avec la future norme AVX10.2, ces microkernels pourraient rapprocher davantage la puissance des CPU de celle des GPU.
Au final, cette évolution laisse entrevoir une nouvelle ère où la “puissance” en IA ne sera plus exclusivement l’apanage des centres de données, mais accessible directement depuis nos ordinateurs portables ou de bureau. Une étape majeure pour la démocratisation de l’intelligence artificielle, qui pourrait transformer la manière dont nous utilisons ces technologies au quotidien.
Pour plus d’informations, vous pouvez consulter les sources originales :
https://elchapuzasinformatico.com/2025/08/intel-cpu-mas-rendimiento-ia-microkernels-1-bit-2-bit/
https://arxiv.org/abs/2508.06753