NVIDIA et OpenAI portent l’inférence à 1,5 million de tokens par seconde avec les modèles GPT-OSS sur l’architecture Blackwell

NVIDIA et OpenAI portent l'inférence à 1,5 million de tokens par seconde avec les modèles GPT-OSS sur l'architecture Blackwell

NVIDIA et OpenAI ont franchi une nouvelle étape dans la performance de l’intelligence artificielle avec le lancement des modèles open source gpt-oss-20b et gpt-oss-120b, optimisés pour l’architecture Blackwell. Selon la société, le plus grand modèle atteint jusqu’à 1,5 million de tokens par seconde (TPS) sur un système NVIDIA GB200 NVL72, ce qui permettrait de servir environ 50 000 utilisateurs simultanément.

Ces modèles, axés sur le raisonnement textuel, intègrent la capacité de chaîne de pensée (chain-of-thought) et des appels à des outils, en s’appuyant sur une architecture Mixture of Experts (MoE) avec des activations SwigGLU. Ils comportent des couches d’attention équipées de RoPE pour gérer jusqu’à 128 000 tokens, alternant entre attention complète et une fenêtre glissante de 128 tokens.

Les deux versions sont disponibles en précision FP4, ce qui permet même au modèle de 120 milliards de paramètres de fonctionner sur une seule GPU de centre de données disposant de 80 Go de mémoire, tirant parti des capacités natives de Blackwell.

En ce qui concerne l’entraînement et l’optimisation, le gpt-oss-120b a nécessité plus de 2,1 millions d’heures de formation sur des GPU NVIDIA H100 Tensor Core, tandis que le gpt-oss-20b a exigé environ dix fois moins de ressources. NVIDIA a collaboré avec Hugging Face Transformers, Ollama, vLLM, et sa propre TensorRT-LLM pour améliorer les performances en matière de noyaux d’attention, de routage MoE et de prétraitement.

Les optimisations clés incluent TensorRT-LLM Gen pour le préchargement et le décodage d’attention, les noyaux CUTLASS MoE pour Blackwell, le noyau XQA spécialisé pour Hopper, la librairie FlashInfer pour le déploiement et la compatibilité avec le noyau OpenAI Triton pour TensorRT-LLM et vLLM.

Pour le déploiement, NVIDIA offre différentes options selon l’environnement : en centres de données, avec vLLM permettant un lancement automatique de serveurs web compatibles OpenAI, ou avec TensorRT-LLM via des guides, conteneurs Docker et configurations optimisées. Sur les infrastructures d’entreprise, la plateforme open source NVIDIA Dynamo permet d’améliorer jusqu’à 4 fois l’interactivité pour les longues séquences grâce à l’inférence désagrégée, tout en proposant des modèles sous forme de microservices NVIDIA NIM, prêts à être déployés de manière sécurisée. En local, le gpt-oss-20b peut fonctionner sur tout PC doté d’un GPU NVIDIA GeForce RTX avec au moins 16 Go de VRAM, ou sur des stations de travail équipées de GPU RTX PRO, compatible avec Ollama, Llama.cpp et Microsoft AI Foundry Local.

Le système GB200 NVL72 combine 72 GPUs Blackwell avec la cinquième génération de NVLink et un switch NVLink, fonctionnant comme une seule GPU à grande échelle. Son moteur Transformer de deuxième génération, doté de Tensor Cores FP4, et son immense bande passante permettent d’atteindre des pics d’inférence jusqu’alors inaccessibles pour de tels modèles. NVIDIA affirme que cette avancée renforce la capacité à déployer des modèles de dernière génération dès leur sortie, avec un rendement élevé et un coût réduit par token, en environnement cloud ou sur site.

Les modèles gpt-oss disposent de 24 ou 36 blocs Transformer pour le gpt-oss-20b et le gpt-oss-120b, respectivement, comportant 20 ou 117 milliards de paramètres totaux. Leur conception permet une gestion efficace des prompts et des contextes jusqu’à 128 000 tokens, tout en supportant plusieurs experts actifs pour un traitement avancé.

En conclusion, cette collaboration entre NVIDIA et OpenAI établit une nouvelle référence dans le domaine de l’inférence des modèles linguistiques de grande échelle, alliant performance exceptionnelle et flexibilité de déploiement, adaptable aussi bien aux environnements cloud qu’aux PC locaux. L’écosystème intégré, qui optimise matériel, noyaux et frameworks, vise à démocratiser l’accès aux IA performantes pour tous les développeurs, partout.

le dernier