La société atteint une vitesse sans précédent dans l’inférence de modèles LLM, combinant optimisation matérielle, logicielle et techniques avancées de décodage spéculatif.
NVIDIA a établi un nouveau record en matière de performance pour les modèles de langage de grande échelle (LLM). Un seul nœud NVIDIA DGX B200, équipé de huit GPU Blackwell, a atteint une vitesse de plus de 1 000 tokens par seconde par utilisateur avec le modèle Llama 4 Maverick, le modèle le plus performant de la collection Llama 4, possédant 400 milliards de paramètres. Cette marque a été vérifiée de manière indépendante par le service de benchmarking Artificial Analysis.
Cet exploit fait de Blackwell la plateforme matérielle idéale pour exécuter Llama 4, que ce soit pour maximiser les performances par serveur ou minimiser la latence dans des scénarios utilisateur unique. En configuration maximale, le système atteint 72 000 tokens par seconde par serveur.
Optimisation totale : de CUDA à TensorRT-LLM
Le succès repose sur une combinaison d’innovations architecturales et de progrès significatifs au niveau logiciel. NVIDIA a utilisé l’environnement TensorRT-LLM pour affiner chaque aspect de l’inférence, mettant en œuvre des optimisations de kernel en CUDA pour des opérations critiques comme GEMM, MoE et attention.
Les fusions de kernel (comme la combinaison d’AllReduce avec RMSNorm) et l’utilisation du Programmatic Dependent Launch (PDL), une fonctionnalité de CUDA permettant de chevaucher l’exécution de kernels consécutifs, sont particulièrement notables. Cela permet d’éliminer les temps morts et d’améliorer l’utilisation du matériel. De plus, des opérations au format FP8 ont été employées, permettant, grâce aux Tensor Cores de Blackwell, de maintenir la précision tout en réduisant les coûts de calcul.
Décodage spéculatif : vitesse sans compromettre la qualité
L’un des éléments clés a été l’utilisation d’un décodage spéculatif personnalisé, reposant sur l’architecture EAGLE-3. Cette technique permet à un modèle rapide de générer des ébauches de texte qui sont ensuite vérifiées en parallèle par le modèle principal, multipliant ainsi la vitesse d’inférence.
Un équilibre optimal a été atteint en utilisant des séquences de brouillons de trois tokens, entraînant un facteur d’accélération de plus de 2x sans compromettre la qualité. Le modèle brouillon s’exécute directement sur le GPU via torch.compile(), réduisant ainsi sa surcharge de 25 % à 18 %.
Impact réel : vers une IA plus rapide et utile
La nécessité de réduire la latence est cruciale pour les applications d’intelligence artificielle générative en temps réel, comme les assistants virtuels, les copilotes logiciels ou les agents autonomes. Grâce à ces améliorations, NVIDIA démontre qu’il est possible d’offrir une expérience fluide et réactive même avec des modèles massifs.
Cette performance va au-delà d’un simple avancement technique : elle constitue la base de la prochaine génération d’agents IA capables d’interagir avec les humains de manière instantanée et efficace, des interfaces conversationnelles aux simulations complexes dans le cloud.
Conclusion
Avec cet exploit, NVIDIA ne renforce pas seulement son leadership dans l’infrastructure pour l’intelligence artificielle, mais ouvre la voie à une nouvelle ère de performances extrêmes en IA, où la combinaison de matériel spécialisé tel que Blackwell, de techniques d’inférence avancées et d’optimisation à bas niveau permettra de déployer des modèles toujours plus puissants dans des scénarios critiques et à forte demande.
Via : Blog technique NVIDIA