Arm C1 face à x86 et Mali G1-Ultra : l’enjeu d’Arm pour porter l’IA et le ray tracing mobile à un autre niveau

Arm C1 face à x86 et Mali G1-Ultra : l'enjeu d'Arm pour porter l'IA et le ray tracing mobile à un autre niveau

Arm a dévoilé sa nouvelle plateforme Lumex dans le cadre de sa stratégie Compute Subsystems (CSS) : un package « quasi prêt à fabriquer » associant CPU Arm C1 (Armv9.3 avec SME2 intégré), GPU Mali G1-Ultra avec Ray Tracing Unit v2, une interconnexion et une mémoire système optimisées, une télémetrie unifiée, ainsi qu’une pile logicielle conçue pour accélérer le développement. L’objectif déclaré est clair : démocratiser l’IA en périphérie — des mobiles haut de gamme aux wearables — et réduire la dépendance au cloud. La société situe ses références dans des nœuds avancés, notamment les 3 nm de TSMC.

Le contexte est de forte compétition : les noyaux C1 cherchent à rivaliser avec x86 sur les terrains du rendement « par watt » en informatique client et en périphérie, tandis que la Mali G1-Ultra vise à réduire l’écart avec les GPU mobiles performants, en augmentant le tracé de rayons et les tâches d’IA. Par ailleurs, Arm pousse sa vision « on-device first » avec SME2 (Scalable Matrix Extensions 2), qui accélère les opérations matricielles courantes des transformateurs et CNN directement dans le CPU, avec une promesse d’jusqu’à 5× de performance IA et 3× d’efficacité en plus par rapport à la génération antérieure.

Voici un aperçu technique — avec quelques chiffres — de ce qui a été présenté.


Lumex CSS : CPU, GPU et système, orchestrés pour l’IA en périphérie

Lumex CSS n’est pas un unique IP isolé, mais un « sous-système » qu’Arm propose aux fabricants de SoC, intégrant clusters de CPU C1, GPU Mali G1, interconnexion système (SI), MMU optimisée, Kleidi AI ainsi que des outils de télémetrie et de profilage. La clé, selon la société, consiste à réduire les cycles de conception et à permettre à chaque partenaire d’assembler des noyaux C1-Ultra, C1-Premium, C1-Pro et C1-Nano selon ses besoins (flagship, milieu de gamme, efficience, wearables).

  • Armv9.3 + SME2 : intégration native d’instructions matricielles pour accélérer les inférences dans le CPU (attention, convolutions, projections linéaires). Arm positionne SME2 comme un « changeur de jeu » pour des expériences IA privées et en temps réel, limitant parfois les accès à la NPU ou à la GPU lorsque le « chemin critique » tient dans le CPU et le cache mémoire.
  • Stack logiciel : références à Kleidi AI et outils unifiés de performance, facilitant le portage par les développeurs et OEMs de LLMs compacts, TTS, SR ou super résolution sans redéfinir l’architecture du SoC.



CPU Arm C1 : quatre variantes pour couvrir du flagship au wearable

Les nouveaux C1 remplacent dans la feuille de route les Cortex correspondants et se déclinent en quatre versions équipées de Armv9.3 et SME2 :

  • C1-Ultra : le « gros » de performance maximale, destiné aux modèles d’IA volumineux, photographie computationnelle et génération de contenu haut de gamme. Selon les données partagées par la société, il offre +25 % de performance par cœur par rapport à son prédécesseur, une fenêtre d’exécution +25 % et +33 % de bande passante en L1 en comparaison avec le Cortex-X925.
  • C1-Premium : cherche un équilibre performance/aire avec un rendu proche de l’Ultra mais en ≈ 35 % de surface en moins, destiné aux smartphones « mainstream » et à la haute gamme contenue.
  • C1-Pro : profil efficient pour la lecture vidéo, inférences en arrière-plan et charges continues. La progression de performance s’élève à environ +16 % face à la génération précédente.
  • C1-Nano : option ultra-efficace pour wearables ; il réduit la consommation d’environ 26 % et minimise la surface pour s’intégrer dans les montres et bracelets connectés.

Au-delà des stratégies marketing, le message technique montre que SME2 déplace une partie des IA légères dans le CPU avec une moindre pénalité énergétique et des latences plus stables, laissant la GPU/NPU pour des rafales ou des lots importants. Lors du lancement, Arm évoque jusqu’à plus de performance en IA et des latences (voix) nettement inférieures à la précédente, renforçant l’approche d’expériences « toujours-actives » sans cloud.

Fabrication et « time-to-market » : Arm indique que Lumex CSS est optimisé pour le 3 nm (par exemple, TSMC N3), ce qui donne une idée pour des produits commercialisés en 2025-2026 sur smartphones premium. Le format CSS (sous-système prêt à l’emploi) doit réduire les mois d’intégration pour les partenaires souhaitant éviter de partir d’IPs isolés.


GPU Mali G1-Ultra : 2× en ray tracing et +20 % en jeux et IA

Dans le domaine graphique, la nouvelle Mali G1-Ultra succède à l’Immortalis-G925 comme GPU haut de gamme d’Arm. La pièce maîtresse est la Ray Tracing Unit v2 (RTUv2), qui double le rendement en ray tracing par rapport à la génération précédente et améliore d’environ +20 % les performances dans les benchmarks graphiques et les inférences IA, grâce à des chemins matriciels en FP16 et des changements dans le programmateur.

En conditions réelles, Arm mentionne un impact mesuré dans des titres comme Fortnite, Genshin Impact, Arena Breakout et Honkai: Star Rail, où l’on note à la fois plus de fps et une meilleure efficacité par frame. Pour l’industrie, l’essentiel est que ces avancées « transpirent » vers les variantes G1-Premium et G1-Pro : pas seulement les modèles haut de gamme s’améliorent, mais aussi la gamme moyenne.

En détails : la nouvelle architecture intègre des shader cores doubles, plus de registres rapides, une région de dépendance intelligente (IRD), des compteurs par tile avec Vulkan, ainsi qu’une feuille de route pour RenderDoc. En outre, Arm étend sa solution de super-résolution temporelle ASR, déjà présente dans Unreal Engine 5 et Fortnite sur mobile. La tendance générale est à une qualité de niveau console sur mobile, avec des limites thermiques et énergétiques plus strictes.


Pourquoi cette génération est-elle importante ? Un regard depuis la perspective sysadmin et dév

Au-delà des communiqués officiels, voici quelques implications techniques et produits à souligner :

  1. CPU comme accélérateur d’IA « sérieux ». Avec SME2, Arm ne cherche pas à remplacer la NPU, mais à l’étendre aux marges où le CPU offre latence plus faible et cohérence de cache avantageuse pour pipelining hybride (par exemple, ASR/TTS ou étapes pré/post-traitement d’un LLM). Pour des applications avec inférences petites mais fréquentes, le CPU C1 pourrait devenir le « moteur par défaut », laissant la NPU pour les rafales.
  2. Ray tracing sur mobile, désormais « jouable ». La doublement en RT et l’amélioration générale d’environ 20 % n’équivalent pas forcément à un rendu complet en ray tracing sur tous les jeux, mais élèvent vraiment le seuil des effets (reflets, ombres) sans compromettre 60 fps constants, notamment avec ASR et des techniques temporelles. Cela ouvre aux studios la possibilité d’intégrer des préréglages RT mobiles sans repenser tout leur pipeline de rendu.
  3. Moins de friction d’intégration pour les OEMs. Le format CSS accélère la mise sur le marché : clusters C1 pré-validés, interconnexion et MMU optimisées, télémetrie unifiée, et Kleidi AI pour faire communiquer CPU/GPU/NPU. Résultat : cycles raccourcis et une diversification plus facile avec plus de SKU par an, en combinant et adaptant les composants plus aisément.
  4. Concurrence avec x86 d’un côté, RISC-V de l’autre. En termes de performance par watt, le trio C1-Ultra + SME2 + 3 nm positionne Arm comme un adversaire sérieux pour x86 en périphérie mobile et en edge. La standardisation du CSS se pose aussi comme un défi face à la flexibilité de RISC-V en « bring-your-own-design ». La bataille portera principalement sur la latence IA et le coût/aire.

Performance déclarée et métriques comparables

Arm a diffusé plusieurs chiffres clés, en CPU comme en GPU, pour donner une idée de l’ampleur de la progression :

  • CPU C1 (avec SME2) : jusqu’à plus en charges IA et environ d’efficacité énergétique par rapport à la génération précédente, grâce à des instructions matricielles, une fenêtre d’exécution plus grande, et de meilleures caches L1 (en Ultra, +33 % de bande passante).
  • GPU Mali G1-Ultra : 2× en ray tracing (RTUv2) et environ +20 % dans les benchmarks graphiques et inférence IA par rapport à l’Immortalis-G925. Ces gains se vérifient notamment sur des jeux populaires (Fortnite, Genshin Impact, Arena Breakout, Honkai) et dans les outils de développement (comptoirs par tile, Vulkan, RenderDoc à venir).

Note : Les chiffres dépendent des configurations, des fréquences, et du TDP effectifs de chaque SoC/OEM, donc les résultats en produit final peuvent varier selon le design thermique et électrique du constructeur.


Calendrier et adoption attendue

Les acteurs du secteur envisagent des lancements commerciaux à partir de fin 2025, en phase avec les cycles de renouvellement de Qualcomm, MediaTek, Samsung ou HiSilicon. La présentation simultanée de Lumex lors d’un événement en Chine souligne l’importance de l’écosystème Android — hors Apple — pour la première vague d’adoption. La disponibilité d’un silicium de masse en 3 nm avec C1/G1 d’ici la fin 2025 dépendra notamment des calendriers de tape-out et des capacités de fabrication, notamment en N3.

Impacts pour l’utilisateur et l’industrie

  • Pour l’utilisateur final : davantage de fonctionnalités d’IA privée (traduction en temps réel, assistants contextuels ne codant pas vers le cloud, édition photo avancée) et de jeux mobiles avec effets de lumière et reflets enfin proches du PC ou de la console, avec une meilleure autonomie comparée aux tentatives antérieures.
  • Pour les développeurs : SME2 comme objectif d’optimisation supplémentaire, accès à la télémétrie unifiée du système, compteurs par tile dans GPU, et ASR comme support pour le super-résolution temporelle. Le défi consiste à adapter moteurs (Unity/Unreal) et middleware IA pour faire coopérer CPU/GPU/NPU sans « sur-scheduler ».
  • Pour les OEMs : moins d’intégration ad hoc, une meilleure prévisibilité des délais et du BOM, et une differenciation par la diversité des noyaux (Ultra/Premium/Pro/Nano) et fréquences, plutôt que par la redéfinition complète de la gestion d’interconnexion et de mémoire.

Et vis-à-vis d’x86 ?

La question inévitable : une menace réelle pour x86 en client ? Sur des charges sensibles à la latence et performance/W, oui : C1-Ultra avec SME2 pourrait rivaliser avec les ultraportables qui combinent aujourd’hui NPU et GPU pour de l’IA de base. Cependant, l’écosystème de développement — compilateurs, bibliothèques optimisées, frameworks comme PyTorch avec des chemins SME2 bien matures — fera toute la différence. À ce stade, Arm oriente son discours vers Android et le format mobile, où sa part de marché reste prédominante.

Ce que les technologues doivent surveiller

  1. Toolchains intégrant SME2 : si Kleidi AI et le support dans les principaux frameworks arrivent en 2025 avec maturité, le C1 gagnera du terrain aussi pour l’inférence légère et le pré/post-traitement aujourd’hui souvent limité par la NPU.
  2. Drivers et RT sur mobile : la promesse de 2× en RT est forte ; son déploiement dans les jeux en direct dépend des drivers Vulkan, de la stabilité, et de l’optimisation par titre.
  3. Échelle thermique : la montée en 3 nm aide, mais maintenir 60 fps en RTUv2 sur un châssis compact demeure un défi en termes de power gating et de dissipation thermique.
  4. Écosystème partenaires : la rapidité avec laquelle Qualcomm/MediaTek/Samsung adapteront leur CSS déterminera la disponibilité massive — et le positionnement prix — en 2026.

Conclusion

Avec Lumex CSS, C1 et Mali G1-Ultra, Arm ne se contente pas de mettre à jour son catalogue : il redéfinit son offre pour une décennie où l’IA s’exécutera principalement en périphérie. Les CPU C1 avec SME2 épaulent la CPU dans un rôle accru d’accélérateur d’IA, et la GPU G1-Ultra garantit que le ray tracing en mobile n’est pas un simple gadget. Si les délais d’intégration promis par CSS se concrétisent, et si le logiciel suit, 2026 pourrait bien être l’année où les mobiles découpleront la majorité de leur intelligence du cloud — avec de meilleures latences, plus de confidentialité, et bien sûr, de meilleurs graphismes.

Questions fréquentes (FAQ)

Qu’est-ce que Lumex CSS d’Arm, et en quoi diffère-t-il de la simple diffusion d’IPs ?
Il s’agit d’un sous-système complet (CPU C1 + GPU Mali G1 + SI/MMU + outils) prêt à être intégré dans un SoC, avec des références physiques réalisés en 3 nm. Cela réduit considérablement la complexité et le délai d’intégration par rapport à la compilation d’IPs séparés.

Quel apport apporte SME2 par rapport à l’utilisation uniquement de NPU/GPU ?
SME2 autorise des opérations matricielles (Armv9.3), améliorant latence et efficacité pour des inférences légères et des tâches d’enrobage (pré/post-traitement), avec jusqu’à plus de performance et environ d’efficacité supplémentaire par rapport à la génération précédente.

De combien Mali G1-Ultra dépasse-t-elle l’Immortalis-G925 ?
Arm indique un doublement en ray tracing (RTUv2) et une amélioration d’environ +20 % dans les benchmarks graphiques et inférence IA ; ces gains sont confirmés par des tests sur des jeux populaires (Fortnite, Genshin Impact, Arena Breakout, Honkai) et dans les outils de développement (comptoirs par tile, Vulkan, RenderDoc à venir).

Quand pourra-t-on voir les premiers mobiles équipés de C1/G1 ?
Les sources publiques évoquent une adoption commerciale début 2026, sous réserve des calendriers de tape-out et des capacités de production en 3 nm.

Et la concurrence avec x86 ?
Le rendement par watt et la latence IA du combo C1 + SME2 constituent une menace sérieuse pour x86 sur le marché mobile et en périphérie. La différenciation se jouera surtout dans le logiciel (toolchains, frameworks, drivers), et dans la capacité des OEMs à déployer rapidement Lumex CSS dans des produits finis.

Quels sont les points à surveiller pour les développeurs de jeux mobiles ?
Optimisation Vulkan, adoption de l’ASR et des techniques RT scalables, utilisation des compteurs par tile et un plan pour la gestion thermique. Avec G1-Ultra, il y a un potentiel réel pour des effets RT sélectifs et un meilleur « frame pacing » si la gestion thermique le permet.


Sources : communiqués Arm, blogs techniques sur Mali G1-Ultra et C1/SME2, articles de presse spécialisée (Reuters, EE Times), ainsi que résumés par des partenaires et médias spécialisés.

le dernier