LineShine : le superordinateur chinois qui entraîne l’IA sans GPU

Lenovo présente sa sixième génération de superordinateurs avec refroidissement liquide pour mener la transformation pilotée par l'IA

La Chine vient de présenter une approche peu conventionnelle pour l’entraînement de modèles d’intelligence artificielle à l’échelle extrême : un supercalculateur basé sur des CPU Armv9, sans dépendre du schéma dominant des grands clusters accélérés par GPU. Le système, nommé LineShine, est installé au Centre National de Supercalculateurs de Shenzhen (NSCC-SZ) et a été décrit dans un article scientifique publié en préprint sur arXiv le 09/05/2026.

Ce qui surprend le plus n’est pas seulement ses performances, mais aussi son architecture. LineShine combine 20 480 nœuds de calcul et 40 960 processeurs LX2 basés sur Armv9. Chaque processeur intègre 304 cœurs. Selon les données techniques du papier, le nombre total théorique atteint ainsi 12 451 840 cœurs CPU. Ce chiffre dépasse largement les 2,4 millions évoqués dans certaines lectures rapides du système, qui ne correspondent pas à une simple multiplication des nœuds, processeurs et cœurs par processeur décrite dans l’étude.

Ce projet s’inscrit dans un contexte marqué par les restrictions américaines sur les puces avancées pour la Chine, en vigueur depuis 2022, affectant certains semi-conducteurs de calcul avancé et certaines utilisations du supercalculation. Ces limitations ont renforcé l’intérêt chinois pour le développement d’architectures propres, de processeurs nationaux et de conceptions capables de soutenir des charges d’IA sans dépendre entièrement de GPU étrangers.

Un supercalculateur CPU pour l’entraînement de modèles d’IA à vocation scientifique

LineShine ne se limite pas à une démonstration matérielle. Le système a été utilisé pour entraîner un modèle génératif de compression appliqué à des données d’observation de la Terre. L’objectif est de réduire fortement le volume de données satellitaires, avec des ratios allant de 100× à 10 000×, puis de reconstruire l’information à l’aide d’un modèle entraîné sur des archives historiques d’observations terrestres.

Cette démarche est cohérente, car les satellites survolent sans cesse la même planète. Cette répétition génère des motifs géographiques, temporels et spectraux qui peuvent être appris. Au lieu de traiter chaque image comme un fichier isolé à transmettre, stocker et traiter brute, le système propose d’utiliser l’historique global des observations comme une sorte de mémoire générative. Le modèle ne se contente pas de compresser ; il apprend une connaissance préalable du territoire pour mieux reconstituer ce qui se perd lors de la compression.

Selon l’article, l’entraînement a atteint 1,54 exaFLOP/s en moyenne en BFloat16, avec un pic de 2,16 exaFLOP/s lors du chargement. Ces chiffres sont remarquables car ils ne proviennent pas d’un cluster GPU classique, mais d’une machine CPU Armv9 équipée de mémoire hiérarchique HBM et DDR, d’un réseau d’interconnexion dédié et d’un effort significatif d’optimisation logicielle.

Élément Données décrites
Nœuds de calcul 20 480
Processeurs LX2 40 960
Cœurs par processeur 304
Cœurs CPU totaux 12 451 840
Mémoire par processeur 32 Go HBM + 256 Go DDR
Débit HBM par processeur jusqu’à 4 To/s
Réseau par nœud LQLink, 1,6 Tb/s
Rendement soutenu rapporté 1,54 exaFLOP/s
Pic rapporté 2,16 exaFLOP/s

Le processeur LX2 décrit dans l’étude comporte deux dies de calcul, huit clusters de CPU et une combinaison de mémoire HBM intégrée à la puce avec une mémoire DDR externe. Cette architecture ne cherche pas à imiter exactement le modèle GPU, mais à exploiter un mélange de nombreux cœurs, mémoire à haut débit, mémoire de grande capacité et optimisations très spécifiques pour des opérations de formation intensive.

L’importance de ne pas utiliser de GPU

La majorité de l’IA moderne à grande échelle s’entraîne et s’exécute principalement sur des GPU ou des accélérateurs spécialisés. NVIDIA domine une grande partie du marché grâce à ses puces, à son logiciel et à son écosystème CUDA, conférant un avantage difficile à reproduire. La preuve que la Chine montre un résultat d’entraînement à l’échelle exascale basé sur des CPU Armv9 est significative : cela ne signifie pas que les GPU sont devenus inutiles, mais qu’il existe des voies alternatives pour certaines applications scientifiques.

Ce point est crucial. LineShine ne doit pas être comparé directement aux vastes clusters GPU destinés à l’entraînement de grands modèles de langage. Son cas d’usage est différent : compression générative et reconstruction de données satellites multispectrales. Là où interviennent la gestion de l’ingestion de données, la mémoire, la communication, l’organisation de tenseurs et la capacité à mener des travaux scientifiques prolongés sur d’énormes archives.

Le document insiste sur le fait que les archives d’observation terrestre atteignent déjà plusieurs centaines de pétaoctets, et que pour de nombreuses tâches scientifiques, déplacer et retraiter ces données devient un goulot d’étranglement. La méthode D2AR utilisée dans l’entraînement cherche à transformer ces archives historiques en un modèle capable de fournir des reconstructions à la demande avec différents niveaux de compression.

Ce paradigme pourrait aussi influencer la conception future des infrastructures scientifiques. Au lieu que chaque chercheur télécharge de volumineux ensembles de données, les centres de supercalcul offrent des représentations compressées, des reconstructions adaptées à chaque tâche ou des produits dérivés générés à proximité des archives. Cela s’inscrit dans une tendance plus large à déplacer l’analyse là où sont les données, plutôt que de toujours transférer ces données vers chaque utilisateur.

L’épine dorsale : la co-optimisation

La performance de LineShine ne s’explique pas uniquement par le cumul de millions de cœurs. Le travail technique met en avant une optimisation coordonnée entre le modèle, les noyaux, la mémoire, le runtime et le parallélisme. Sur CPU, les coûts liés à la planification, la synchronisation et le transfert de données peuvent être beaucoup plus élevés qu’en GPU si le logiciel n’est pas adapté. C’est pourquoi les chercheurs ont développé des stratégies spécifiques pour Armv9, SVE et SME, l’extension matricielle de l’architecture.

Un défi clé concerne la gestion de la mémoire. Chaque cluster dispose d’un volume limité de mémoire HBM locale ; ainsi, tous les paramètres, activations, gradients et états de l’optimiseur ne peuvent pas rester en mémoire rapide en permanence. Le système décide quelles tenseurs doivent rester dans la mémoire HBM et lesquels peuvent être stockés en DDR, en fonction de leur impact réel sur la performance et de leur durée de vie durant l’entraînement.

La communication est également finement ajustée. LineShine utilise un parallélisme séquentiel et une stratégie hybride de gestion des données, alignée avec la topologie physique de la machine. L’objectif est que les communications les plus fréquentes restent dans des domaines à faible latence lorsque cela est possible, tout en évitant de répliquer inutilement les états de l’optimiseur.

Les gains de performance rapportés dans l’étude sont impressionnants. Pour un modèle de 6 milliards de paramètres, le temps par étape sur un nœud est passé de 51,31 secondes à 4,98 secondes grâce à la gestion mémoire, aux noyaux optimisés, aux améliorations de communication et au runtime asynchrone. Cette amélioration locale permet ensuite de faire évoluer le système jusqu’à des milliers de nœuds sans que l’efficacité ne se dégrade significativement.

En effectifs, avec 20 480 nœuds, le système maintient une efficacité d’échelle faible de 76 %. En pratique, cela signifie que lors de l’augmentation du nombre de nœuds, la charge totale augmente également tout en conservant une bonne efficacité. Pour l’entraînement sur des archives historiques mondiales, ce compromis est plus crucial que de pousser la vitesse sur un petit test fixe.

LineShine démontre que la Chine ne se limite pas à chercher des substituts directs aux GPU occidentaux. Elle explore aussi des architectures complètes où processeur, réseau, mémoire et logiciel sont optimisés pour des charges spécifiques. Cette stratégie ne remet pas en cause la domination des accélérateurs dans l’IA commerciale, mais l’élargit considérablement.

Une lecture particulièrement intéressante pour les secteurs cloud et infrastructure est que l’IA ne se résumera pas à une seule architecture gagnante. Les modèles conversationnels, l’inférence en entreprise, la simulation scientifique, l’observation de la Terre et la compression générative peuvent nécessiter des solutions de calcul, mémoire, réseau et stockage différentes. LineShine appartient à cette seconde famille : moins visible du grand public que ChatGPT ou DeepSeek, mais très pertinente pour comprendre la transformation en cours de la supercalculabilité dans une rivalité technologique en pleine expansion.

Questions fréquentes

Qu’est-ce que LineShine ?
LineShine est un supercalculateur chinois installé au Centre National de Supercalculateurs de Shenzhen. Basé sur des processeurs LX2 Armv9, il a été utilisé pour entraîner des modèles d’IA scientifique à l’échelle exascale.

Combien de cœurs possède LineShine ?
Selon les données techniques, il dispose de 20 480 nœuds, avec deux processeurs par nœud et 304 cœurs par processeur, ce qui donne un total de 12 451 840 cœurs CPU.

LineShine utilise-t-il des GPU ?
L’architecture décrite repose principalement sur des CPU Armv9 LX2, et des acteurs spécialisés la présentent comme une machine exascale totalement basée sur CPU. Son intérêt réside dans sa démonstration d’une voie d’entraînement IA sans dépendre du modèle classique de clusters GPU.

Peut-elle concurrencer les grands clusters de NVIDIA ?
Cela dépend des charges. Pour l’entraînement de grands modèles de langage, les GPU restent leaders. LineShine se démarque dans une application scientifique spécifique : l’entraînement exascale d’un modèle génératif pour la compression et la reconstruction de données d’observation terrestre.

le dernier