Cerebras remet une nouvelle fois sur la table une question gênante pour l’industrie de l’intelligence artificielle : et si le problème ne résidait pas dans le nombre accru de GPU, mais dans une dépendance excessive à une architecture conçue à l’origine pour d’autres types de charges ? Andrew Feldman, cofondateur et CEO de Cerebras, défend depuis longtemps cette thèse : l’inférence de grands modèles de langage ne ressemble ni au rendu graphique ni à l’entraînement massif traditionnel. C’est avant tout une question de mémoire.
L’explication est simple, même si les implications sont énormes. Pour générer chaque token, un modèle linguistique doit déplacer des poids de la mémoire vers les unités de calcul. Si ce flux est bloqué, le processeur, aussi puissant soit-il, doit attendre les données. Dans ce contexte, la vitesse ne dépend pas seulement du nombre de FLOPS, mais aussi de la proximité de la mémoire, de la distance jusqu’au calcul et du débit réel que le système peut supporter.
Cerebras ne veut pas simplement beaucoup de GPU : il veut une seule dalle
L’approche radicale de Cerebras bouleverse le point de départ habituel. Alors que l’industrie conventionnelle découpe une plaquette de silicium en centaines de petits chips, Cerebras utilise pratiquement la dalle entière comme un unique processeur. Son WSE-3 mesure 46 225 mm², intègre 4 billions de transistors, 900 000 cœurs optimisés pour l’IA, et offre selon la documentation de la société 125 pétaFLOPS de puissance de calcul en IA.
Ce qui importe le plus n’est pas seulement la taille, mais aussi la mémoire intégrée. Le WSE-3 possède 44 GB de SRAM intégré dans le chip et annonce un débit de mémoire de 21 PB/s. Comparer cette capacité à celle d’une GPU classique est difficile, car l’architecture est très différente, mais l’idée centrale est claire : rapprocher au maximum mémoire et calcul pour réduire au minimum le mouvement de données. La fiche technique du CS-3 indique une consommation maximale de 27 kW et décrit des configurations en cluster avec refroidissement liquide pour des déploiements d’inférence à grande échelle.
| Caractéristique | Cerebras WSE-3 / CS-3 | NVIDIA H100 / DGX B200 |
|---|---|---|
| Approche | Wafer-scale, un seul gros chip | GPU discrètes en systèmes multi-GPU |
| Transistors | 4 billions | H100 et B200 utilisent des chips plus petits |
| Mémoire principale proche du calcul | 44 GB SRAM sur le chip | HBM externe intégrée dans le package |
| Largeur de bande mémoire | 21 PB/s en SRAM | H100 SXM : 3,35 TB/s ; DGX B200 : 64 TB/s en HBM3e | Complexité principale | Fabrication d’un grand chip tolérant aux défauts | Coordination de plusieurs GPU, mémoire HBM et interconnexions |
| Avantage principal | Basse latence pour inférence spécifique | Écosystème, disponibilité, logiciels et performance polyvalente |
La comparaison avec NVIDIA doit être faite avec prudence. Le H100 n’est pas un Blackwell, et un système DGX B200 intègre huit GPU avec un débit total de HBM3e que NVIDIA estime à 64 TB/s. Néanmoins, la différence architecturale est claire : Cerebras concentre le calcul et la SRAM dans un seul wafer, tandis que NVIDIA évolue par scaling horizontal avec GPU, HBM, NVLink, NVSwitch, logiciels et réseaux haute vitesse.
L’inférence change la donne
Lors de la première phase de l’essor de l’IA, la conversation portait principalement sur l’entraînement. Là, NVIDIA domine grâce à une combinaison difficile à reproduire : matériel puissant, CUDA, bibliothèques, frameworks, expérience opérationnelle, fournisseurs cloud et une chaîne d’approvisionnement mature. Mais la prochaine étape concerne l’inférence, notamment pour les modèles grands, agents conversationnels, assistants de programmation, reconnaissance vocale en temps réel et flux à plusieurs étapes.
Dans l’inférence interactive, l’utilisateur ne souhaite pas seulement que le système traite plusieurs requêtes en parallèle. Il veut une réponse rapide. Si un agent doit raisonner, consulter des outils, lire des documents et générer plusieurs étapes, la latence par utilisateur devient un facteur critique. Une réponse quelques secondes peut être acceptable, mais si celle-ci dure plusieurs minutes, l’expérience s’en trouve compromise.
C’est là que Cerebras cherche à se démarquer. En mai 2025, la société a indiqué que l’analyse artificielle avait mesuré leur point d’accès Llama 4 Maverick à 2 522 tokens par seconde par utilisateur, contre 1 038 tokens par seconde pour NVIDIA Blackwell sur le même modèle. NVIDIA avait annoncé quelques jours auparavant qu’un nœud DGX B200 avec huit GPU Blackwell dépassait les 1 000 tokens/sec par utilisateur dans Llama 4 Maverick, grâce à des optimisations telles que TensorRT-LLM, FP8 et décodage spéculatif basé sur EAGLE-3.
La différence est significative, mais cela ne signifie pas que Cerebras dépasse NVIDIA dans tous les domaines. Elle montre cependant que, dans certains scénarios d’inférence à faible latence et pour des modèles précis, leur architecture peut offrir un avantage évident. NVIDIA conserve néanmoins une position dominante, grâce à son écosystème, ses logiciels, son support global, sa disponibilité cloud, ses outils de développement et la compatibilité avec la majorité des frameworks IA modernes.
Simplifier un système en complexifiant sa fabrication
L’approche la plus innovante de Cerebras consiste à déplacer la difficulté au lieu. Alors que NVIDIA résout le problème en connectant de nombreux composants : GPU, HBM, NVLink, NVSwitch, InfiniBand, logiciels d’orchestration, kernels optimisés et serveurs complets, Cerebras tente d’éliminer une partie de cette complexité en concentrant tout dans un seul et immense bloc de silicium.
Ce pari oblige à résoudre un défi qui semblait presque impossible : fabriquer un seul chip de la taille d’une dalle sans que les défauts n’en décrédibilisent la fabrication. Cerebras aborde cette question avec redondance, chemins alternatifs et une architecture tolérante aux défauts qui permet d’isoler des zones défectueuses tout en maintenant le fonctionnement. La société résume sa démarche comme étant un design conçu pour cohabiter avec des défauts, plutôt que d’ignorer leur existence.
C’est une décision d’ingénierie exigeante, mais avec un avantage conceptuel : si cela fonctionne, cela permet d’éliminer une partie des coûts liés au mouvement des données entre chips. En IA, déplacer des données consomme beaucoup d’énergie, du temps et complique la conception. La maxime “la mémoire est le goulot d’étranglement” revient sans cesse. Il ne suffit pas de multiplier la puissance de calcul si le modèle passe le plus clair de son temps à attendre ses poids.
| Problème de l’IA générative | Solution typique avec GPU | Solution de Cerebras |
|---|---|---|
| Grand modèle | Diviser entre plusieurs GPU | Placer beaucoup de calcul et mémoire sur un seul wafer |
| Déplacement de données | HBM, NVLink, NVSwitch, réseaux | SRAM interne sur le chip et réseau interne du wafer |
| Évolutivité | Clusters multi-GPU | Systèmes CS-3 et clusters wafer-scale |
| Latence par utilisateur | Optimisation des kernels et batching | Réduire la distance mémoire-calcul |
| Programmation distribuée | Souvent nécessaire | Cerebras promet de la simplifier |
Pourquoi NVIDIA n’est pas encore battue
L’enthousiasme autour de Cerebras ne doit pas masquer la réalité du marché. NVIDIA n’est pas seulement maître en vitesse brute. La plateforme NVIDIA est une barrière redoutable. CUDA, TensorRT, Triton, cuDNN, NCCL, DGX, HGX, les réseaux, la documentation, les fournisseurs cloud, l’intégration entreprise et le talent disponible forment un écosystème robuste et difficile à concurrencer.
De plus, toutes les charges de travail ne se résument pas en tokens par seconde. En production, le coût par million de tokens, le taux d’utilisation, le débit global, la disponibilité, la compatibilité avec différents modèles, la stabilité des drivers, la compatibilité logicielle, la sécurité, le déploiement multitenant et la facilité d’opération à grande échelle sont des critères cruciaux.
Cerebras possède une forte tradition en inférence rapide, mais NVIDIA dispose d’une plateforme généraliste installée dans des milliers de centres de données. La bataille ne sera pas binaire. Le marché pourrait se fragmenter : GPU pour l’entraînement et charges diverses ; ASICs, chips wafer-scale et accélérateurs spécialisés pour l’inférence à faible latence ou des modèles ciblés ; et une diversité de hardware selon coûts, performances et disponibilité.
La grande question posée par Cerebras est autre : si l’inférence devient le principal coût opérationnel de l’IA, une architecture plus rentable que le simple regroupement de GPU généralistes pourrait émerger. Pour agents conversationnels, reconnaissance vocale, recherche générative, assistants de code ou raisonnement interactif, la rapidité par utilisateur a une valeur immense. Un système deux fois plus rapide ne se contente pas d’améliorer l’expérience, il ouvre la porte à des produits auparavant inenvisageables à cause de leur lenteur.
Cerebras n’a pas inventé une physique nouvelle, mais en a adopté une autre : réduire la distance entre mémoire et calcul, augmenter la tolérance aux défauts et accepter une fabrication plus complexe. Si cette stratégie se généralise, NVIDIA devra faire face à une concurrence sérieuse dans l’un des aspects les plus critiques de l’IA : la faible latence lors de l’inférence.
Foire aux questions
Pourquoi Cerebras peut-il être plus rapide que NVIDIA sur certains modèles ?
Parce que son architecture place une grande quantité de SRAM directement sur le chip et offre un débit très élevé, réduisant ainsi le goulot d’étranglement lié au déplacement des poids lors de l’inférence.
Le chip de Cerebras est-il une GPU ?
Non. Le WSE-3 est un processeur wafer-scale spécifiquement conçu pour l’IA. Son approche diffère de celle d’une GPU classique.
Cer cela signifie-t-il que Cerebras dépasse NVIDIA dans tous les domaines ?
Pas exactement. Cerebras excelle dans certains scénarios d’inférence à faible latence, mais NVIDIA conserve une position écrasante en termes d’écosystème, de logiciels, d’entraînement, de disponibilité et d’adoption par l’industrie.
Pourquoi la mémoire est-elle si cruciale pour les grands modèles linguistiques (LLMs) ?
Parce que, pour générer des tokens, le modèle doit accéder en permanence à ses poids. Si la mémoire est éloignée ou si le débit est limité, le calcul attendra souvent ses données, ce qui ralentit tout.
Source : LinkedIn