Cerebras défie NVIDIA sur la vitesse d’inférence

Maria Lafaye D.

X (Twitter) Facebook Pinterest LinkedIn Email

Cerebras remet sur la table une question gênante pour l’industrie de l’IA : et si le problème ne résidait pas dans le nombre de GPU, mais dans une dépendance excessive à une architecture conçue à l’origine pour d’autres types de charges ? Andrew Feldman, cofondateur et CEO de Cerebras, défend depuis longtemps cette thèse : l’inférence de grands modèles de langage ne ressemble ni au rendu graphique ni à l’entraînement massif traditionnel. C’est avant tout une question de mémoire.

Pour générer chaque token, un modèle linguistique doit déplacer des poids de la mémoire vers les unités de calcul. Si ce flux est bloqué, le processeur doit attendre les données. Dans ce contexte, la vitesse ne dépend pas seulement du nombre de FLOPS, mais aussi de la proximité de la mémoire, de la distance jusqu’au calcul et du débit réel que le système peut supporter.

Cerebras ne veut pas plus de GPU : il veut une seule dalle

L’approche de Cerebras part d’un point de départ différent. Alors que l’industrie conventionnelle découpe une plaquette de silicium en centaines de petits chips, Cerebras utilise pratiquement la dalle entière comme un unique processeur. Son WSE-3 mesure 46 225 mm², intègre 4 billions de transistors, 900 000 cœurs optimisés pour l’IA, et affiche selon la documentation de la société 125 pétaFLOPS de puissance de calcul.

Ce qui importe le plus, c’est la mémoire intégrée. Le WSE-3 possède 44 GB de SRAM dans le chip et annonce un débit de 21 PB/s. Comparer cette capacité à celle d’un GPU classique est difficile, car l’architecture est très différente, mais l’idée centrale est claire : rapprocher au maximum mémoire et calcul pour réduire le mouvement de données. La fiche technique du CS-3 indique une consommation maximale de 27 kW et décrit des configurations en cluster avec refroidissement liquide pour des déploiements d’inférence à grande échelle.

Caractéristique	Cerebras WSE-3 / CS-3	NVIDIA H100 / DGX B200
Approche	Wafer-scale, un seul gros chip	GPU discrètes en systèmes multi-GPU
Transistors	4 billions	H100 et B200 utilisent des chips plus petits
Mémoire proche du calcul	44 GB SRAM sur le chip	HBM externe intégrée dans le package
Largeur de bande mémoire	21 PB/s en SRAM	H100 SXM : 3,35 TB/s ; DGX B200 : 64 TB/s en HBM3e
Complexité principale	Fabrication d’un grand chip tolérant aux défauts	Coordination de plusieurs GPU, mémoire HBM et interconnexions
Avantage principal	Basse latence pour inférence spécifique	Écosystème, disponibilité, logiciels et performance polyvalente

La comparaison avec NVIDIA doit être faite avec prudence. Le H100 n’est pas un Blackwell, et un système DGX B200 intègre huit GPU avec un débit total de HBM3e que NVIDIA estime à 64 TB/s. La différence architecturale est pourtant nette : Cerebras concentre calcul et SRAM dans un seul wafer, tandis que NVIDIA progresse par scaling horizontal avec GPU, HBM, NVLink, NVSwitch, logiciels et réseaux haute vitesse.

L’inférence change la donne

Lors de la première phase de l’essor de l’IA, la conversation portait surtout sur l’entraînement. Là, NVIDIA domine grâce à une combinaison difficile à reproduire : matériel puissant, CUDA, bibliothèques, frameworks, expérience opérationnelle, fournisseurs cloud et une chaîne d’approvisionnement mature. La prochaine étape concerne l’inférence, pour les agents conversationnels, assistants de programmation, reconnaissance vocale en temps réel et flux à plusieurs étapes. La croissance de cette demande est détaillée dans notre analyse sur le marché des GPU pour les centres de données.

Dans l’inférence interactive, l’utilisateur ne veut pas seulement que le système traite plusieurs requêtes en parallèle. Il veut une réponse rapide. Si un agent doit raisonner, consulter des outils, lire des documents et générer plusieurs étapes, la latence par utilisateur devient un facteur critique. Une réponse en quelques secondes peut être acceptable, mais plusieurs minutes, c’est rédhibitoire.

En mai 2025, Cerebras a indiqué qu’une analyse artificielle avait mesuré leur point d’accès Llama 4 Maverick à 2 522 tokens par seconde par utilisateur, contre 1 038 tokens par seconde pour NVIDIA Blackwell sur le même modèle. NVIDIA avait annoncé quelques jours auparavant qu’un nœud DGX B200 avec huit GPU Blackwell dépassait les 1 000 tokens/sec par utilisateur dans Llama 4 Maverick, grâce à TensorRT-LLM, FP8 et décodage spéculatif basé sur EAGLE-3.

L’écart est significatif, mais ne signifie pas que Cerebras surpasse NVIDIA dans tous les domaines. Il montre que dans certains scénarios d’inférence à faible latence, sur des modèles précis, leur architecture offre un avantage réel. NVIDIA conserve une position dominante grâce à son écosystème, ses logiciels, son support global, sa disponibilité cloud, ses outils de développement et sa compatibilité avec la majorité des frameworks IA modernes.

Simplifier un système en complexifiant sa fabrication

L’originalité de l’approche Cerebras tient à ce déplacement de la difficulté. Alors que NVIDIA résout le problème en connectant de nombreux composants (GPU, HBM, NVLink, NVSwitch, InfiniBand, logiciels d’orchestration, kernels optimisés), Cerebras tente d’éliminer une partie de cette complexité en concentrant tout dans un seul et immense bloc de silicium.

Ce pari oblige à résoudre un problème que beaucoup jugeaient presque impossible : fabriquer un seul chip de la taille d’une dalle sans que les défauts ne compromettent la production. Cerebras l’aborde avec redondance, chemins alternatifs et une architecture tolérante aux défauts qui permet d’isoler les zones défectueuses tout en maintenant le fonctionnement global. Le design est conçu pour cohabiter avec des défauts, pas pour les ignorer.

Si ça fonctionne, une partie des coûts liés au mouvement des données entre chips disparaît. En IA, déplacer des données consomme de l’énergie, du temps et complique la conception. Multiplier la puissance de calcul ne sert à rien si le modèle passe l’essentiel de son temps à attendre ses poids.

Problème de l’IA générative	Solution typique avec GPU	Solution de Cerebras
Grand modèle	Diviser entre plusieurs GPU	Placer calcul et mémoire sur un seul wafer
Déplacement de données	HBM, NVLink, NVSwitch, réseaux	SRAM interne sur le chip
Évolutivité	Clusters multi-GPU	Systèmes CS-3 et clusters wafer-scale
Latence par utilisateur	Optimisation des kernels et batching	Réduire la distance mémoire-calcul
Programmation distribuée	Souvent nécessaire	Cerebras promet de la simplifier

Pourquoi NVIDIA reste largement devant

L’enthousiasme autour de Cerebras ne doit pas masquer la réalité du marché. NVIDIA n’est pas seulement rapide en vitesse brute. CUDA, TensorRT, Triton, cuDNN, NCCL, DGX, HGX, les réseaux, la documentation, les fournisseurs cloud, l’intégration entreprise et le talent disponible forment un ensemble difficile à concurrencer. La stratégie de NVIDIA pour les centres de données, détaillée dans notre article sur NVIDIA et Dell dans les datacenters IA, illustre cette profondeur d’écosystème.

Toutes les charges de travail ne se résument pas en tokens par seconde. En production, le coût par million de tokens, le taux d’utilisation, le débit global, la disponibilité, la compatibilité avec différents modèles, la stabilité des drivers, la sécurité, le déploiement multitenant et la facilité d’opération à grande échelle sont des critères tout aussi cruciaux.

Cerebras possède une forte tradition en inférence rapide, mais NVIDIA dispose d’une plateforme généraliste installée dans des milliers de centres de données. La bataille ne sera pas binaire. Le marché pourrait se fragmenter : GPU pour l’entraînement et les charges diverses ; ASICs, chips wafer-scale et accélérateurs spécialisés pour l’inférence à faible latence ; et une diversité de hardware selon coûts, performances et disponibilité.

La grande question posée par Cerebras est plus profonde : si l’inférence devient le principal coût opérationnel de l’IA, une architecture plus rentable que le simple regroupement de GPU généralistes pourrait s’imposer. Pour agents conversationnels, reconnaissance vocale, recherche générative ou raisonnement interactif, la rapidité par utilisateur a une valeur immense. Un système deux fois plus rapide n’améliore pas seulement l’expérience, il ouvre la porte à des produits auparavant impossibles à cause de leur lenteur.

Cerebras n’a pas inventé une physique nouvelle, mais en a adopté une autre : réduire la distance entre mémoire et calcul, augmenter la tolérance aux défauts et accepter une fabrication plus complexe. Si cette stratégie se généralise, NVIDIA devra faire face à une concurrence sérieuse dans l’un des aspects les plus critiques de l’IA : la faible latence lors de l’inférence.

Questions fréquentes sur Cerebras et l’inférence IA

Pourquoi Cerebras peut-il être plus rapide que NVIDIA sur certains modèles ?

Parce que son architecture place une grande quantité de SRAM directement sur le chip et offre un débit très élevé, réduisant le goulot d’étranglement lié au déplacement des poids lors de l’inférence.

Le chip de Cerebras est-il un GPU ?

Non. Le WSE-3 est un processeur wafer-scale conçu spécifiquement pour l’IA. Son approche diffère fondamentalement d’un GPU classique.

Cerebras dépasse-t-il NVIDIA dans tous les domaines ?

Non. Cerebras excelle dans certains scénarios d’inférence à faible latence, mais NVIDIA conserve une position écrasante en termes d’écosystème, de logiciels, d’entraînement, de disponibilité et d’adoption industrielle.

Pourquoi la mémoire est-elle si cruciale pour les grands LLMs ?

Pour générer des tokens, le modèle doit accéder en permanence à ses poids. Si la mémoire est éloignée ou si le débit est limité, le calcul attend souvent ses données, ce qui ralentit tout.

X (Twitter) Facebook Pinterest LinkedIn Email

Maria Lafaye D.

Journaliste spécialisé dans les technologies, le cloud et l'intelligence artificielle, qui rédige en français à l'aide de l'IA pour des médias tels que Actualité Cloud.