La Chine vient de présenter une approche peu conventionnelle pour l’entraînement de modèles d’intelligence artificielle à l’échelle extrême : un supercalculateur basé sur des CPU Armv9, sans dépendre du schéma dominant des grands clusters accélérés par GPU. Le système, nommé LineShine, est installé au Centre National de Supercalculateurs de Shenzhen (NSCC-SZ) et a été décrit dans un article scientifique publié en préprint sur arXiv le 09/05/2026.
Ce qui surprend le plus n’est pas seulement ses performances, mais son architecture. LineShine combine 20 480 nœuds de calcul et 40 960 processeurs LX2 basés sur Armv9. Chaque processeur intègre 304 cœurs. Le nombre total théorique atteint ainsi 12 451 840 cœurs CPU, un chiffre bien supérieur aux 2,4 millions cités dans certaines lectures rapides du système, qui ne correspondent pas à une simple multiplication des nœuds, processeurs et cœurs décrite dans l’étude.
Ce projet émerge dans un contexte marqué par les restrictions américaines sur les puces avancées pour la Chine, en vigueur depuis 2022, visant certains semi-conducteurs de calcul et certaines utilisations en supercalculation. Ces limitations ont renforcé l’intérêt chinois pour le développement d’architectures propres, de processeurs nationaux et de conceptions capables de soutenir des charges d’IA sans dépendre entièrement de GPU étrangers.
Un supercalculateur CPU pour l’entraînement de modèles scientifiques
LineShine ne se limite pas à une démonstration matérielle. Le système a été utilisé pour entraîner un modèle génératif de compression appliqué à des données d’observation de la Terre. L’objectif : réduire fortement le volume de données satellitaires, avec des ratios allant de 100× à 10 000×, puis reconstruire l’information grâce à un modèle entraîné sur des archives historiques d’observations terrestres.
La démarche fait sens : les satellites survolent sans cesse la même planète. Cette répétition génère des motifs géographiques, temporels et spectraux que l’on peut apprendre. Au lieu de traiter chaque image comme un fichier isolé à transmettre, stocker et traiter brut, le système exploite l’historique global des observations comme une mémoire générative. Le modèle ne compresse pas seulement ; il apprend une connaissance préalable du territoire pour mieux reconstituer ce qui se perd lors de la compression.
Selon l’article, l’entraînement a atteint 1,54 exaFLOP/s en moyenne en BFloat16, avec un pic de 2,16 exaFLOP/s lors du chargement. Ces chiffres sont remarquables car ils ne proviennent pas d’un cluster GPU classique, mais d’une machine CPU Armv9 équipée de mémoire hiérarchique HBM et DDR, d’un réseau d’interconnexion dédié et d’un effort d’optimisation logicielle considérable.
| Élément | Données décrites |
|---|---|
| Nœuds de calcul | 20 480 |
| Processeurs LX2 | 40 960 |
| Cœurs par processeur | 304 |
| Cœurs CPU totaux | 12 451 840 |
| Mémoire par processeur | 32 Go HBM + 256 Go DDR |
| Débit HBM par processeur | jusqu’à 4 To/s |
| Réseau par nœud | LQLink, 1,6 Tb/s |
| Rendement soutenu rapporté | 1,54 exaFLOP/s |
| Pic rapporté | 2,16 exaFLOP/s |
Le processeur LX2 décrit dans l’étude comporte deux dies de calcul, huit clusters de CPU et une combinaison de mémoire HBM intégrée à la puce avec une mémoire DDR externe. L’architecture ne cherche pas à imiter le modèle GPU, mais à exploiter un mélange de nombreux cœurs, mémoire à haut débit, grande capacité et optimisations spécifiques pour des opérations de formation intensive.
L’importance de ne pas utiliser de GPU
La majorité de l’IA moderne à grande échelle s’entraîne sur des GPU ou des accélérateurs spécialisés. NVIDIA domine une grande partie du marché grâce à ses puces, son logiciel et son écosystème CUDA, un avantage difficile à reproduire. Que la Chine montre un résultat d’entraînement exascale basé sur des CPU Armv9 est significatif : cela ne signifie pas que les GPU sont devenus inutiles, mais qu’il existe des voies alternatives pour certaines applications scientifiques. À titre de comparaison, on voit que même dans le monde GPU, les exigences d’infrastructure se complexifient, comme en témoigne le protocole réseau MRC qu’OpenAI a développé pour maintenir 100 000 GPU en marche.
Ce point mérite d’être précisé. LineShine ne doit pas être comparé directement aux grands clusters GPU destinés à l’entraînement de LLM. Son usage est différent : compression générative et reconstruction de données satellites multispectrales. Là où ce qui compte, c’est la gestion de l’ingestion de données, la mémoire, la communication, l’organisation de tenseurs et la capacité à mener des travaux scientifiques prolongés sur d’énormes archives.
L’article insiste : les archives d’observation terrestre atteignent déjà plusieurs centaines de pétaoctets. Pour de nombreuses tâches scientifiques, déplacer et retraiter ces données devient le vrai goulot d’étranglement. La méthode D2AR utilisée dans l’entraînement transforme ces archives historiques en un modèle capable de fournir des reconstructions à la demande, avec différents niveaux de compression.
Ce modèle pourrait aussi influencer la conception future des infrastructures scientifiques. Au lieu que chaque chercheur télécharge de volumineux ensembles de données, les centres de supercalcul offrent des représentations compressées, des reconstructions adaptées ou des produits dérivés générés près des archives. C’est une tendance plus large : déplacer l’analyse là où sont les données, plutôt que l’inverse. Et cela n’est pas sans rappeler les dynamiques qui redistribuent les rôles dans la chaîne des puces mémoire, où l’IA impose ses propres exigences sur chaque composant.
L’épine dorsale : la co-optimisation
La performance de LineShine ne s’explique pas par le seul cumul de millions de cœurs. Le travail technique met en avant une optimisation coordonnée entre le modèle, les noyaux, la mémoire, le runtime et le parallélisme. Sur CPU, les coûts liés à la planification, la synchronisation et le transfert de données peuvent être bien plus élevés qu’en GPU si le logiciel n’est pas adapté. Les chercheurs ont donc développé des stratégies spécifiques pour Armv9, SVE et SME, l’extension matricielle de l’architecture.
Un défi clé : la gestion de la mémoire. Chaque cluster dispose d’un volume limité de mémoire HBM locale, donc tous les paramètres, activations, gradients et états de l’optimiseur ne peuvent pas rester en mémoire rapide en permanence. Le système décide quels tenseurs restent dans la HBM et lesquels basculent en DDR, en fonction de leur impact réel sur la performance et de leur durée de vie durant l’entraînement.
La communication est aussi finement ajustée. LineShine utilise un parallélisme séquentiel et une stratégie hybride de gestion des données, alignée avec la topologie physique de la machine. L’objectif : que les communications les plus fréquentes restent dans des domaines à faible latence, sans répliquer inutilement les états de l’optimiseur.
Les gains de performance rapportés sont impressionnants. Pour un modèle de 6 milliards de paramètres, le temps par étape sur un nœud est passé de 51,31 secondes à 4,98 secondes grâce à la gestion mémoire, aux noyaux optimisés, aux améliorations de communication et au runtime asynchrone. Cette amélioration locale permet ensuite de faire évoluer le système jusqu’à des milliers de nœuds sans que l’efficacité ne se dégrade significativement.
Avec 20 480 nœuds, le système maintient une efficacité d’échelle faible de 76 %. En pratique, cela signifie que lors de l’augmentation du nombre de nœuds, la charge totale augmente aussi tout en gardant une bonne efficacité. Pour l’entraînement sur des archives historiques mondiales, ce compromis est plus crucial que de pousser la vitesse sur un petit test fixe.
LineShine montre que la Chine ne cherche pas seulement des substituts directs aux GPU occidentaux. Elle explore des architectures où processeur, réseau, mémoire et logiciel sont optimisés pour des charges spécifiques. Cette stratégie ne remet pas en cause la domination des accélérateurs dans l’IA commerciale, mais elle ouvre un territoire intéressant pour la science à grande échelle.
Pour les secteurs cloud et infrastructure, la leçon est claire : l’IA ne se résumera pas à une seule architecture gagnante. Les modèles conversationnels, l’inférence en entreprise, la simulation scientifique, l’observation de la Terre et la compression générative peuvent nécessiter des solutions de calcul, mémoire, réseau et stockage très différentes. LineShine appartient à cette deuxième famille : moins visible du grand public que ChatGPT ou DeepSeek, mais très pertinent pour comprendre la transformation en cours de la supercalculabilité dans une compétition technologique en pleine expansion.
Questions fréquentes
Qu’est-ce que LineShine ?
LineShine est un supercalculateur chinois installé au Centre National de Supercalculateurs de Shenzhen. Basé sur des processeurs LX2 Armv9, il a été utilisé pour entraîner des modèles d’IA scientifique à l’échelle exascale, sans recours à des GPU.
Combien de cœurs possède LineShine ?
Selon les données techniques, il dispose de 20 480 nœuds, avec deux processeurs par nœud et 304 cœurs par processeur, ce qui donne un total de 12 451 840 cœurs CPU.
LineShine utilise-t-il des GPU ?
L’architecture repose principalement sur des CPU Armv9 LX2. Son intérêt réside dans la démonstration d’une voie d’entraînement IA sans dépendre du modèle classique de clusters GPU.
Peut-il concurrencer les grands clusters de NVIDIA ?
Cela dépend des charges. Pour l’entraînement de grands modèles de langage, les GPU restent leaders. LineShine se distingue sur une application scientifique spécifique : l’entraînement exascale d’un modèle génératif pour la compression et la reconstruction de données d’observation terrestre.