CoreWeave montre une augmentation de 6,5x des performances GPU avec NVIDIA GB300 NVL72 par rapport à H100 dans le modèle de raisonnement DeepSeek R1

CoreWeave montre une augmentation de 6,5x des performances GPU avec NVIDIA GB300 NVL72 par rapport à H100 dans le modèle de raisonnement DeepSeek R1

Une nouvelle étape dans la course à l’intelligence artificielle de nouvelle génération s’appuie désormais non seulement sur les modèles, mais aussi sur l’infrastructure qui les soutient. Avec l’émergence de modèles de raisonnement capables d’accomplir des tâches complexes en plusieurs étapes, d’analyser des données et d’agir en tant qu’agents autonomes, le défi principal ne se limite plus à la précision, mais concerne désormais la latence et la performance en inférence.

CoreWeave a annoncé le lancement de ses nouvelles instances accélérées équipées de GPUs NVIDIA GB300 NVL72, basées sur les GPU Blackwell Ultra. Ces infrastructures ont permis d’atteindre un gain de performance de 6,5 fois supérieur en inférence avec le modèle DeepSeek R1, en comparaison avec un cluster composé de GPUs H100.

Ce progrès marque une transition majeure, passant de modèles génératifs classiques à des modèles de raisonnement tels que DeepSeek R1. Ceux-ci requièrent non seulement la prédiction de mots, mais également des processus impliquant plusieurs réflexions, avec de nombreux calculs intensifs et des itérations successives. Toutefois, cette puissance accrue est extrêmement sensible à la latence : un retard en inférence peut rendre ces modèles inutilisables pour des applications en temps réel telles que les copilotes de programmation, les agents financiers ou les assistants scientifiques.

Afin de mesurer cette avancée, CoreWeave a comparé deux configurations :

– 16 GPUs NVIDIA H100 utilisant le tensor parallelism en mode 16-way (TP16),
– 4 GPUs NVIDIA GB300 dans l’infrastructure NVL72, utilisant le tensor parallelism en 4-way (TP4), grâce à leur mémoire et bande passante plus importantes.

Les résultats sont édifiants : avec seulement un quart des GPUs, la configuration GB300 a permis d’atteindre un débit de 6,5 fois plus de tokens par seconde, en réduisant considérablement la charge de communication entre GPUs. Concrètement, cela se traduit par une génération de tokens plus rapide, une latence moindre et une utilisation plus optimale des ressources pour les utilisateurs finaux.

Ce saut de performance repose sur une architecture radicalement repensée du NVL72, comprenant :

– Une mémoire massive allant jusqu’à 40 To, permettant d’exécuter des modèles de milliards de paramètres sans fragmentation ni surcharge ;
– Des interconnexions ultra-rapides via la cinquième génération de NVLink, offrant un débit de 130 TB/s pour les 72 GPUs Blackwell Ultra, réduisant la dépendance au PCIe traditionnel ;
– Un système d’interconnexion optimisé avec NVIDIA Quantum-X800 InfiniBand, assurant un flux de données efficace à travers tout le cluster et éliminant les goulets d’étranglement présents dans les infrastructures cloud généralistes.

Au-delà du hardware, CoreWeave a développé une suite logicielle en cloud qui exploite pleinement ces avancées. Sa solution inclut un contrôleur de cycle de vie automatisé pour la stabilité, une intégration avec Kubernetes et Slurm via un ordonnanceur conscient de la topologie NVLink, garantissant que les travaux s’exécutent dans le même domaine NVL72 pour maintenir la performance, ainsi qu’un tableau de bord de surveillance avancée grâce à Grafana, offrant une visibilité en temps réel sur l’utilisation des GPUs, le trafic NVLink et la disponibilité des racks.

Ce nouvel ensemble technologique offre aux entreprises une possibilité de révolutionner leur manière d’accélérer l’innovation, en entraînant des modèles plus sophistiqués en un temps réduit ; de diminuer leurs coûts totaux (TCO) grâce à un meilleur rendement par GPU et une surcharge réduite ; et d’assurer une production fiable dans des environnements conçus spécialement pour l’IA, avec une résilience à toute épreuve.

En conclusion, le NVIDIA GB300 NVL72 déployé par CoreWeave prouve que les modèles de raisonnement ne sont plus une promesse lointaine, mais une réalité opérationnelle. L’alliance d’une mémoire exceptionnelle, d’une bande passante extrême et d’une cloudisation optimisée permet désormais d’exécuter en temps réel des modèles de prochaine génération, à des coûts plus compétitifs et avec une scalabilité sans précédent. À l’heure où l’industrie se tourne vers des modèles comptant des milliards voire des trillions de paramètres, cette avancée indique que l’avenir de l’intelligence artificielle de grande envergure repose sur des architectures telles que le GB300 NVL72, où matériel et logiciel travaillent en parfaite harmonie.

Pour plus d’informations, consultez le site de CoreWeave.

le dernier