CoreWeave valide le « Platinum ClusterMAX™ » de SemiAnalysis : ce qui se cache derrière la performance qui la couronne comme le cloud d’IA numéro 1

CoreWeave valide le "Platinum ClusterMAX™" de SemiAnalysis : ce qui se cache derrière la performance qui la couronne comme le cloud d'IA numéro 1

La compétition pour devenir l’infrastructure de référence pour l’entraînement et le déploiement de modèles d’IA à grande échelle ne se limite plus à mesurer en TFLOPs : aujourd’hui, l’efficacité avec laquelle un cloud fournit des GPUs de dernière génération, orchestre des milliers de nœuds, protège des données sensibles et maintient la stabilité du service lors de pics de demande est tout aussi cruciale. Sur ce tableau de bord, CoreWeave décroche à nouveau le plus prestigieux prix de SemiAnalysis : le Platinum ClusterMAX™. Selon les analyses, aucun autre prestataire cloud spécialisé en IA n’a atteint cette distinction lors de leur dernière évaluation ClusterMAX 2.0.

Au-delà de la médaille, cette annonce permet de prendre le pouls d’un marché où les hypercalleurs généralistes rivalisent avec des nuages spécialisés optimisés, depuis le hardware jusqu’au scheduler, pour les charges de travail en IA. SemiAnalysis affirme avoir combiné tests indépendants et retours clients provenant de dizaines de fournisseurs avant de conclure que CoreWeave est le seul à satisfaire la norme “Platinium” en 2025.

Qu’est-ce que ClusterMAX™ et pourquoi cela importe-t-il ?

ClusterMAX™ est un système de notation qui évalue des dimensions critiques pour l’entraînement et le déploiement à grande échelle : sécurité, stockage, orchestration, fiabilité et disponibilité. Il ne se limite pas à mesurer le nombre de GPUs ou la bande passante d’un centre de données ; l’essentiel réside dans la capacité de la plateforme à soutenir le fonctionnement complexe de clusters multinœuds avec haute utilisation, gestion des défaillances et bonnes pratiques d’isolement et de conformité.

Selon SemiAnalysis 2.0, le niveau Platinum est réservé aux fournisseurs qui “excellent de manière cohérente sur tous les critères : du profil de sécurité à la robustesse opérationnelle, en passant par la qualité de leur offre gérée de Slurm et Kubernetes”. En résumé : posséder de la haute technologie GPU ne suffit pas ; il faut l’intégrer dans un système permettant de véritablement en exploiter tout le potentiel.

Les cinq domaines où CoreWeave se démarque

L’évaluation de ClusterMAX 2.0 attribue à CoreWeave la position de leader dans :

  • Sécurité : conformité renforcée et contrôles spécifiques pour des environnements IA/GPU/InfiniBand, avec des tests de pénétration ciblés, un isolement VPC granularisé et une détection des menaces en temps réel.
  • Stockage : les systèmes CAIOS et LOTA sont salués pour leur performance et escalabilité. Dans les clusters IA, l’espace de stockage détermine si l’entraînement se déroule sans encombre ou si un goulot d’étranglement, mesuré par la Model FLOP Utilization (MFU), freine tout le processus.
  • Orchestration : mention explicite pour Slurm sur Kubernetes (SUNK) et le CoreWeave Kubernetes Service (CKS). La coexistence de Slurm (standard en HPC/IA) sur K8s offre flexibilité (services cloud natifs) sans renoncer à un contrôle précis des jobs distribués.
  • Fiabilité : vérifications de santé actives et passives avec une automatisation avancée pour remplacer les nœuds ou récupérer après une panne. Dans des clusters opérant des centaines de GPUs, la réparation automatique est aussi cruciale que le uptime.
  • Disponibilité : déploiements à grande échelle de clusters GB200 et GB300 (la nouvelle génération d’accélérateurs NVIDIA avec CPU Grace et GPUs Blackwell), témoignant que les capacités de calcul haut de gamme sont véritablement prêtes à l’emploi pour les clients.

Tableau — Résumé de l’évaluation (ClusterMAX™ 2.0)

Dimension évaluée Ce que vérifie SemiAnalysis Jugement sur CoreWeave*
Sécurité Pentest spécifique IA/GPU/IB, isolement, détection Leadership en contrôles et isolement (VPC, enclaves)
Stockage Performance, escalabilité, cohérence sous charge CAIOS/LOTA reconnus pour leur débit/latence
Orchestration Gestion des jobs (Slurm), K8s, flexibilité SUNK + CKS classés meilleur de leur catégorie
Fiabilité Contrôles de santé, auto-cure, MTTR, résilience Automatisation avancée de remplacement et récupération
Disponibilité Accès à des GPUs de dernière génération, capacité Déploiements GB200/GB300 à grande échelle

*Selon le rapport et l’évaluation de CoreWeave.

Que signifient “MFU” et “goodput” (et pourquoi sont-ils cités) ?

Dans leur communication, CoreWeave affirme que leur infrastructure permet à ses clients d’atteindre jusqu’à 20 % de MFU supplémentaire et un 96 % de goodput. En termes d’entraînement de modèles :

  • MFU (Model FLOP Utilization) mesure le pourcentage de FLOPs théoriques de la GPU qui sont effectivement utiles pour le modèle (en excluant les attentes sur I/O, synchronisations et moteurs de pipeline).
  • Goodput reflète le travail utile réalisé en proportion du total des ressources consommées (un indicateur de l’efficacité de bout en bout).

Dans de grands clusters, la différence entre un MFU de 45 % et de 55 % peut représenter plusieurs semaines d’entraînement économisées ou, autrement dit, des millions de dollars en moins en facture de calcul. Toutefois, il faut garder à l’esprit que ces pourcentages dépendent du modèle, du volume, de la topologie, du framework et de la qualité du pipeline. Ce sont des valeurs indicatives.

Slurm sur Kubernetes : pourquoi cette combinaison est-elle pertinente ?

Le standard HPC pour la gestion des files d’attente et l’attribution des ressources — Slurm — a une longue histoire de coexistence avec Kubernetes, qui domine dans l’univers cloud-native. La proposition de CoreWeave avec SUNK (Slurm on Kubernetes) et leur CKS vise à combiner le meilleur des deux :

  • Slurm pour le scheduling des jobs distribués, l’affinité GPU/IB, le gang scheduling et les politiques de file d’attente “type HPC”.
  • Kubernetes pour gérer les services auxiliaires, les réseaux et le cycle de vie cloud (observabilité, sécurité, autoscaling hors entraînement, intégration CI/CD).

Pour les équipes de recherche et MLOps familières avec Slurm mais souhaitant opérer dans le cloud sans réécrire leur tooling, cette couche leur offre un raccourci opérationnel.

Sécurité et conformité : du “checklist” à la pratique

Le fait que l’évaluation mette en avant pentesting spécifique pour GPU/InfiniBand n’est pas anodin. La transition d’entâinements monolithiques à des clusters multi-locataires connectés via des réseaux ultra-faibles latence a ouvert une surface d’attaque peu familière pour des équipes issues du monde web. Les contrôles d’isolement, la télémétrie en temps réel et les politiques de segmentation au niveau VPC/locataire sont aujourd’hui tout aussi critiques que le cryptage au repos ou l’authentification unique (SSO).

Quel avenir pour les hypercalleurs ?

La reconnaissance de CoreWeave ne signifie pas une défaite définitive pour AWS, Azure ou Google Cloud. Elle indique cependant qu’une nuage spécialisé peut optimiser toute la chaîne (depuis la sélection des GPU jusqu’au scheduler et au stockage) pour l’IA à grande échelle et ainsi surpasser en efficacité effective — MFU, goodput, temps d’attente — certains profils d’entraînement ou de fine-tuning.

En revanche, les hypercalleurs offrent une échelle globale, un catalogue plus riche (services de données, analytique, sécurité, DevOps), des écosystèmes matures et des accords cadre souvent aussi précieux que la métrique MFU. Le choix d’un client n’est pas binaire : beaucoup combinent différentes couches (données à grande échelle + entraînement dans le cloud spécialisé) ou optent pour du multicloud par région ou disponibilité GPU.

Source : coreweave

le dernier