
NVIDIA et OpenAI portent l’inférence à 1,5 million de tokens par seconde avec les modèles GPT-OSS sur l’architecture Blackwell
NVIDIA et OpenAI ont franchi une nouvelle étape dans la performance de l’intelligence artificielle avec le lancement des modèles open source gpt-oss-20b et gpt-oss-120b, optimisés pour l’architecture Blackwell. Selon la société, le plus grand modèle atteint jusqu’à 1,5 million de tokens par seconde (TPS) sur un système NVIDIA GB200 NVL72, ce qui permettrait de servir environ 50 000 utilisateurs simultanément. Ces modèles, axés sur le raisonnement textuel, intègrent la capacité de chaîne de pensée (chain-of-thought) et des appels à des outils, en s’appuyant sur une architecture Mixture of Experts (MoE) avec des activations SwigGLU. Ils comportent des couches d’attention équipées de RoPE pour gérer jusqu’à 128 000 tokens, alternant entre attention complète et une fenêtre glissante de 128 tokens. Les