OpenAI accélère Codex avec Cerebras : 1 000 jetons/seconde et un « plan B » concret face à NVIDIA

OpenAI accélère Codex avec Cerebras : 1 000 jetons/seconde et un « plan B » concret face à NVIDIA

OpenAI franchit une étape qui, au-delà des titres, pourrait avoir des implications profondes sur le marché de l’inférence : son nouveau gpt-5.3-codex-spark (une variante optimisée pour les réponses en temps réel, ultra-rapides) fonctionne sur l’infrastructure de Cerebras. Le message est double : d’une part, OpenAI met en avant la latence comme étant la nouvelle obsession de l’AI de programmation ; d’autre part, il laisse présager l’existence d’une deuxième voie pour exécuter des modèles à grande échelle, en dehors de l’écosystème exclusif de NVIDIA.

Cette annonce arrive à un moment où les assistants de programmation rivalisent moins pour « deviner » et plus pour offrir une réactivité immédiate : le temps jusqu’au premier token (TTFT), la fluidité du streaming et la capacité à maintenir un dialogue technique sans interruptions sont devenus la vraie frontière du produit. Et là, OpenAI semble avoir trouvé un avantage tangible grâce à Cerebras.


Qu’est-ce que précisément Codex-Spark et pourquoi cela compte-t-il ?

Selon OpenAI, Codex-Spark est conçu pour des tâches de programmation avec une expérience proche d’un pair programmer : des réponses plus rapides, une continuité accrue dans le streaming et moins de « micro-cuts » lors de la génération de code et d’explications. La société affirme qu’avec cette variante :

  • Réduit d’environ 50% le temps jusqu’au premier token (TTFT).
  • Peut atteindre jusqu’à ~1 000 tokens par seconde en sortie dans des scénarios favorables (clé pour les éditions rapides et les boucles de tests/corrections).
  • Maintient un contexte étendu (OpenAI le positionne pour des sessions intensives de programmation et d’outils).

En résumé : ce n’est pas simplement « un autre modèle », mais une véritable promesse d’interactivité extrême. Cela s’aligne avec la tendance du marché vers des flux agentic (outils, appels de fonctions, tests automatiques, navigation, etc.), où la latence a plus d’impact sur la productivité que la moindre marge de précision supplémentaire.


L’élément clé : que fournit Cerebras dans l’inférence ?

Cerebras affirme depuis des années que sa conception wafer-scale (une puce de la taille d’une wafer entière) n’est pas une simple excentricité de laboratoire, mais une architecture aux avantages concrets lorsque le goulot d’étranglement concerne la mémoire et le déplacement des données, et non seulement les FLOPS.

Pour le cas du WSE-3 (Wafer-Scale Engine 3), les chiffres en matière de performances « in-chip » sont saisissants :

Paramètre Cerebras WSE-3 (sources publiques)
Transistors ~4 billions
Noyaux ~900 000
Mémoire onboard ~44 Go
Bande passante mémoire ~21 PB/s (selon specifications du cluster)

Ce design vise un objectif précis : minimiser les goulots d’étranglement internes et maintenir une cadence très élevée de tokens avec une latence faible. Dans les modèles orientés programmation — où se répètent des motifs, où l’édition itérative est fréquente et où la réponse immédiate est cruciale — ce genre d’avantages peut se traduire par une expérience plus « humaine » : moins d’attentes, plus de fluidité.


Signifie-t-il que NVIDIA perd sa suprématie ? Pas si vite

Il est tentant de présenter cela comme un « surclassement », mais il est plus probable que ce soit — pour l’instant — un mouvement pragmatique :

  • NVIDIA continue à dominer le stack (logiciel, écosystème, disponibilité, intégration avec les OEM, etc.) et l’économie de l’inférence à grande échelle, notamment en batching et déploiements généralistes.
  • Ce que OpenAI indique, c’est une autre réalité : pour certains produits (comme un Copilot de code ultra-rapide), le principal enjeu n’est pas seulement le coût par token, mais le temps de réponse et la perception d’immédiateté.

En termes simples : l’industrie découvre que l’inférence ne constitue pas un marché unique. Il y a l’inférence « bon marché » (fort débit en batchs) et l’inférence « instantanée » (faible latence, interaction continue). Et l’architecture qui gagne n’est pas toujours la même.


Pourquoi cela peut changer la donne dans les produits (plus que dans les benchmarks)

En programmation, chaque seconde compte, mais pas par caprice : un assistant qui répond instantanément permet de :

  1. Raccourcir les itérations : proposer → appliquer → tester → corriger.
  2. Créer des agents plus utiles : si l’agent appelle des outils, effectue des recherches, exécute des tests puis revient, la latence totale fait la différence quant à son utilisation ou non.
  3. Réduire la friction cognitive : lorsque le flux est interrompu, le développeur perd son contexte, et la promesse d’une productivité accrue s’évapore.

Si OpenAI parvient à faire de Codex-Spark un outil constamment plus agile, cela ne représente pas uniquement une amélioration technique : c’est une avancée psychologique et opérationnelle. Et en produit, cela peut s’avérer décisif.


Une lecture stratégique : diversification et pouvoir de négociation

Le fait qu’OpenAI mentionne explicitement Cerebras comme infrastructure pour une composante visible de son catalogue indique également une lecture industrielle :

  • Résilience d’approvisionnement : moins dépendre d’un seul fournisseur dans un marché où la stock et la capacité de calcul restent des atouts concurrentiels.
  • Options concrètes : bien que NVIDIA conserve sa domination, disposer d’une seconde plateforme opérationnelle en production renforce la position des grands acheteurs.
  • Segmentation selon les charges : entraîner, déployer des chatbots généralistes, servir du coding interactif… pourraient chacun s’appuyer sur des « îlots » matériels distincts.

Il n’est pas surprenant que la communication officielle sur l’inférence s’oriente vers des concepts comme TTFT, overhead du streaming, « workloads sensibles à la latence » et une approche intégrée du chemin complet (réseau + runtime + hardware). La valeur n’est plus uniquement dans le modèle : elle réside dans sa façon d’être déployé.


Ce qu’il faut surveiller à l’avenir

Si cette tendance se confirme, trois signaux clés à suivre en 2026 :

  • Adoption par davantage de produits : Codex-Spark reste-t-il un cas isolé ou le début d’une nouvelle vague ?
  • Réactions de l’écosystème GPU : améliorations spécifiques pour réduire la latence token-à-token et le TTFT dans les scénarios interactifs.
  • Une présence accrue de « hardware alternatif » en inference : ASIC, GPUs non-NVIDIA, architectures spécialisées cherchant à se positionner là où l’expérience utilisateur prime sur le débit brut.

source : wccftech

le dernier