
OpenAI accélère Codex avec Cerebras : 1 000 jetons/seconde et un « plan B » concret face à NVIDIA
OpenAI franchit une étape qui, au-delà des titres, pourrait avoir des implications profondes sur le marché de l’inférence : son nouveau gpt-5.3-codex-spark (une variante optimisée pour les réponses en temps réel, ultra-rapides) fonctionne sur l’infrastructure de Cerebras. Le message est double : d’une part, OpenAI met en avant la latence comme étant la nouvelle obsession de l’AI de programmation ; d’autre part, il laisse présager l’existence d’une deuxième voie pour exécuter des modèles à grande échelle, en dehors de l’écosystème exclusif de NVIDIA. Cette annonce arrive à un moment où les assistants de programmation rivalisent moins pour « deviner » et plus pour offrir une réactivité immédiate : le temps jusqu’au premier token (TTFT), la fluidité du streaming et la




