CoreWeave a franchi une étape cruciale dans sa course à la maîtrise de l’infrastructure pour les modèles avancés d’Intelligence Artificielle. La société est devenue l’un des premiers fournisseurs cloud à mettre en production à grande échelle des systèmes NVIDIA GB200 NVL72 pour ses clients, avec Cohere, IBM et Mistral AI parmi les utilisateurs pilotes confirmés. NVIDIA et CoreWeave ont présenté ce déploiement comme le véritable point de départ d’une nouvelle phase : passer de l’annonce de matériel à son utilisation concrète pour l’entraînement, l’inférence et les agents IA en milieu professionnel.
Ce mouvement ne se limite pas au nombre de GPU déployés, mais concerne surtout le type de système mis en œuvre. GB200 NVL72 n’est pas une simple instance supplémentaire dans le catalogue habituel d’accélérateurs, mais une plateforme rack-scale qui connecte 72 GPU Blackwell et 36 CPU Grace dans un même domaine NVLink, avec des réseaux NVIDIA Quantum-2 InfiniBand pour faire évoluer le cluster. CoreWeave avait déjà été le premier fournisseur cloud à annoncer la disponibilité générale d’instances basées sur GB200 NVL72, et le message aujourd’hui est que ces machines ne sont plus seulement en phase de test ou de développement : elles exécutent désormais des charges de travail réelles pour certains des acteurs les plus en vue du marché de l’IA.
Ce n’est pas seulement une question de puissance brute : c’est la bataille pour l’ensemble du rack
Depuis plusieurs années, la compétition dans le cloud autour de l’IA se joue principalement sur le nombre de GPU déployés. Avec Grace Blackwell, NVIDIA tente de recentrer la discussion sur le système complet : interconnexion, mémoire unifiée, topologie réseau, alimentation de données et capacité à fonctionner comme une seule machine logique à l’échelle d’un rack. De son côté, CoreWeave cherche à se positionner en tant que fournisseur ayant anticipé cette transition, capable de déployer rapidement ces architectures pour des laboratoires et des entreprises qui ne peuvent pas attendre des mois que l’écosystème se mature.
Ce positionnement s’inscrit dans une stratégie claire. Dans le domaine du cloud IA, il ne suffit plus de proposer des GPU isolés ou des clusters génériques. Les clients les plus avancés recherchent des architectures prêtes au raisonnement, aux agents autonomes et aux modèles de plus en plus grands, où le goulot d’étranglement ne réside pas uniquement dans le processeur, mais dans le comportement global du système lorsque des milliers d’accélérateurs travaillent de concert. Depuis quelque temps, CoreWeave construit sa réputation autour de cette idée d’« hyperscaler IA ». L’implémentation de GB200 NVL72 est sans doute l’un des éléments les plus visibles de cette vision.
Ce que font Cohere, IBM et Mistral avec Blackwell
NVIDIA souhaite accompagner cette annonce par des cas concrets d’usage, illustrant le type de clients que vise CoreWeave. Cohere exploite ces systèmes pour développer des applications d’entreprise sécurisées et des agents personnalisés via sa plateforme North. Selon NVIDIA, l’entreprise observe jusqu’à trois fois plus de performance lors de l’entraînement de modèles de 100 milliards de paramètres, comparé à la génération Hopper, même sans optimisations spécifiques pour Blackwell.
De son côté, IBM utilise l’un des premiers déploiements à l’échelle de plusieurs milliers de GPU GB200 NVL72 pour entraîner la prochaine génération de modèles Granite, sa famille de modèles ouverts et destinés à l’entreprise. La relation avec CoreWeave ne se limite pas à la puissance de calcul : IBM apporte également son Storage Scale System, une couche de stockage haute performance pour l’IA, comme annoncé en janvier 2025 lors de la présentation du superordinateur que CoreWeave doit livrer à IBM à cette fin.
Mistral AI, quant à elle, a déjà commencé à recevoir ses premiers milliers de GPU Blackwell pour accélérer le développement de nouveaux modèles ouverts. Dans l’annonce de NVIDIA, le cofondateur et CTO de Mistral, Timothée Lacroix, indique avoir constaté une amélioration de l’ordre de 2 fois lors de l’entraînement de modèles denses, « immédiatement après leur sortie de la boîte », sans ajustements additionnels. La société française collaborait déjà avec CoreWeave, mais cette nouvelle infrastructure leur permet d’accélérer une fois de plus l’entraînement et l’inférence à une échelle plus grande.
Tableau : répartition du déploiement initial de GB200 NVL72 chez CoreWeave
| Client | Usage principal | Faits marquants |
|---|---|---|
| Cohere | Entraînement et inférence pour l’IA d’entreprise et agents avec North | Jusqu’à 3 fois plus de performance pour entraîner des modèles de 100 milliards de paramètres comparé à Hopper, selon NVIDIA |
| IBM | Entraînement de la prochaine génération de Granite | Déploiement à l’échelle de milliers de GPU Blackwell, avec le support du Storage Scale System d’IBM |
| Mistral AI | Entraînement et déploiement de nouveaux modèles ouverts | Amélioration de 2x lors de l’entraînement de modèles denses, sans optimisations additionnelles, selon NVIDIA |
| CoreWeave | Offre cloud rack-scale pour l’IA | Instances avec 72 GPU Blackwell et 36 CPU Grace, avec un scalabilité jusqu’à 110 000 GPU via Quantum-2 InfiniBand |
Les données de ce tableau ne constituent pas des benchmarks neutres entre fournisseurs, mais des chiffres et descriptions publiés dans leurs annonces officielles par NVIDIA, CoreWeave et IBM. Cependant, ils illustrent clairement la nature de la mise en jeu : moins de marketing sur des promesses futures et plus de messages autour de charges de travail concrètes, de clients réels et de gains de performance déjà mesurables.
Message sous-jacent : la cloud IA entre dans une phase industrielle
Un autre aspect intéressant mérite d’être souligné. CoreWeave ne propose pas uniquement des instances haut de gamme pour une minorité de clients, mais une infrastructure capable, selon sa propre documentation, de monter jusqu’à 110 000 GPU Blackwell via InfiniBand Quantum-2. Par ailleurs, la société a déjà vanté ses résultats record en inference avec Grace Blackwell dans MLPerf, renforçant l’idée qu’elle veut concurrencer non seulement par la capacité mais aussi par le rendement mesurable.
C’est en phase avec un changement plus large dans le marché : la discussion sur l’IA évolue de « qui possède l’accès aux GPU » vers « qui peut faire fonctionner des usines d’IA complètes », avec des racks préintégrés, mémoire, réseau, stockage et logiciels de gestion, prêts à mettre en production des modèles de pointe. NVIDIA parle d’« usines d’IA » (AI factories), CoreWeave insiste sur la rapidité du déploiement, et des clients comme IBM, Cohere ou Mistral évoquent le débit, le coût et le délai pour obtenir une première réponse. Toutes ces approches cherchent à décrire le même phénomène : l’IA n’est plus uniquement développée dans des laboratoires, mais dans une infrastructure industrielle.
La grande question désormais n’est pas si Blackwell va intégrer le cloud — cela a déjà commencé — mais quels fournisseurs seront capables de convertir cette avancée précoce en un avantage concurrentiel durable. CoreWeave s’est positionné en tête avec GB200 NVL72, mais la véritable épreuve sera de maintenir cette avance face à la réponse du marché, qui pourra inclure des déploiements similaires, davantage de capacité, et, probablement, une nouvelle guerre des prix et des performances dans le secteur du cloud IA.
Questions fréquentes
Qu’est-ce exactement que NVIDIA GB200 NVL72 ?
Il s’agit d’une plateforme rack-scale de NVIDIA regroupant 72 GPU Blackwell et 36 CPU Grace dans un même système relié par NVLink, conçue pour l’entraînement, l’inférence, le raisonnement et les agents IA à grande échelle.
Pourquoi est-ce important que CoreWeave l’ait mis en production ?
Car passer de l’annonce à une utilisation concrète par des clients comme Cohere, IBM et Mistral prouve que la plateforme fonctionne déjà avec des charges productives, et pas seulement en phase de tests ou de démonstrations.
Quelles améliorations ont indiqué les premiers clients ?
Cohere mentionne jusqu’à 3 fois plus de performance pour l’entraînement de modèles de 100 milliards de paramètres par rapport à Hopper, alors que Mistral signale une amélioration de 2 fois pour l’entraînement de modèles denses, sans optimisations spécifiques. IBM souligne l’accélération attendue pour sa gamme Granite.
Jusqu’où cette infrastructure peut-elle s’étendre chez CoreWeave ?
CoreWeave affirme que ses instances Blackwell optimisées avec GB200 NVL72 peuvent atteindre jusqu’à 110 000 GPU, connectés via les réseaux NVIDIA Quantum-2 InfiniBand.
Source : blogs.nvidia