Oracle a dévoilé Oracle Cloud Infrastructure (OCI) Zettascale10, sa nouvelle génération de « super-ordinateurs » IA en nuage. La société affirme que ces clusters connectent des centaines de milliers de GPU NVIDIA via plusieurs centres de données, totalisant une capacité multigigavolt et atteignant des pics allant jusqu’à 16 zettaFLOPS en performance théorique. Zettascale10 constitue le socle de calcul sous-jacent au supercluster phare développé en partenariat avec OpenAI à Abilene (Texas), dans le cadre du programme Stargate.
Selon Oracle, l’essentiel réside dans sa architecture réseau Oracle Acceleron RoCE (RoCEv2) à basse latence GPU-GPU, combinée à l’infrastructure IA de NVIDIA. L’objectif : mise à l’échelle massive, optimisation coût/performance, meilleure utilisation du cluster et haute fiabilité pour l’entraînement et l’inférence de modèles à grande échelle.
Qu’est-ce que OCI Zettascale10 (et où s’inscrit-il) ?
- Performance et échelle. Jusqu’à 16 zettaFLOPS (pic) et déploiements multigigavolt de puissance informatique dans des macro-campus conçus pour densité extrême sur un rayon de 2 kilomètres, réduisant la latence entre GPU pour de grands entraînements.
- Maillage de clusters. Oracle Acceleron RoCE privilégie une latence uniformément faible et un débit GPU-GPU à grande échelle, avec des plans de réseau physiques et logiques isolés permettant de détourner le trafic en cas de congestion ou de panne, sans interrompre le traitement.
- Collaboration avec OpenAI. L’architecture a été développée et déployée en premier à Abilene (Texas) pour le supercluster Stargate construit conjointement par Oracle et OpenAI.
- Rapport coût/performance et souveraineté. Oracle positionne Zettascale10 comme infrastructure de base de l’IA industrialisée, avec des options pour fonctionner dans son nuage distribué et des contrôles de souveraineté des données/IA.
« Avec OCI Zettascale10, nous associons notre architecture réseau Oracle Acceleron RoCE à l’infrastructure IA de nouvelle génération de NVIDIA pour offrir une capacité multigigavolt à une échelle sans précédent », a déclaré Mahesh Thiagarajan, EVP d’Oracle Cloud Infrastructure.
Comment y parvenir : Acceleron RoCE et conception réseau “large, peu profond et résilient”
Oracle décrit cinq piliers techniques pour Zettascale10 :
- Réseau large, peu profond et résilient. La NIC GPU agit comme mini-switch et se connecte à plusieurs plans physiques et logiques isolés, réduisant les niveaux du réseau, les coûts et la consommation, tout en augmentant la scalabilité.
- Fiabilité accrue. Le trafic migre automatiquement vers des plans stables, évitant les redémarrages et la perte de checkpoints lors de longs entraînements.
- Performance stable. En éliminant un niveau par rapport aux architectures classiques à trois couches, on vise une latence GPU-GPU plus homogène et prévisible.
- Optique plus efficace. Avec Linear Pluggable Optics (LPO) et Linear Receiver Optics (LRO), Oracle souhaite réduire les coûts de réseau et de refroidissement tout en maintenant 400G/800G de débit, libérant davantage de budget pour la capacité de calcul.
- Flexibilité opérationnelle. Maintenance par plan et indépendance de NOS pour limiter les arrêts et accélérer le déploiement des améliorations.
Taille du cluster, disponibilité et public visé
- Objectif de déploiement initial : jusqu’à 800 000 GPU NVIDIA par cluster, avec performance prévisible et coût optimisé, selon Oracle.
- Commandes et calendrier : commandes ouvertes dès aujourd’hui ; disponibilité prévue pour la deuxième moitié de l’année prochaine.
- Cas d’usage : entraînement de modèles fondamentaux de grande taille, serve et inférence à haute performance et échelle, consolidation des pipelines IA de la recherche vers la production.
« OCI Zettascale10 procure le réseau de calcul nécessaire pour faire progresser l’état de l’art en IA et passer de la simple expérimentation à une IA industrialisée », a déclaré Ian Buck, VP de Hyperscale chez NVIDIA.
Contexte : la course à l’IA à l’échelle « gigavatio »
Le secteur avance vers des données de gigawatt avec plusieurs centaines de milliers de GPU par site pour entraîner et inférer modèles multimodaux de nouvelle génération. Dans ce contexte, la structure réseau — sa latence, son débit efficace et sa fiabilité — détermine autant que les GPU la vitesse de convergence, le coût total et l’utilisation effective du cluster.
L’approche d’Oracle combine :
- Macro-campus densifiés pour minimiser les sauts physiques et la latence.
- Architecture réseau multi-couches avec plans isolés et optique linéaire pour une efficacité énergétique.
- Nuage distribué pour les clients exigeant contrôles de souveraineté sur les données et modèles.
Ce qu’il reste à découvrir
- Configuration GPU précise (génération/modèle) et capacité réelle maintenue (au-delà du pic théorique).
- Mesures d’échelle concrètes en production (taux d’utilisation moyen, défaillances par plan, temps de traitement, coût par token/image à publier).
- Politique d’accès (tenant dédié, bare metal partagé, files d’attente) et SLAs précis selon la taille du travail.
- Empreinte énergétique et mesures d’efficacité thermique par campus (PUE, gestion thermique, réutilisation).
Oracle précise que ses déclarations concernant délais, fonctionnalités et prix sont orientatives (relatives à des prévisions futures et des produits à venir).
Pourquoi ça compte
Si Oracle réalise ses promesses, Zettascale10 fournira à la concurrence un réseau IA à l’échelle zettaFLOPS avec latence GPU-GPU très faible et fonctionnement conçu pour être plus résilient. Pour les clients cherchant à industrialiser l’IA — passant de projets pilotes à services à grande échelle — la combinaison de capacité, souveraineté, rapport coût/rendement et prédictibilité opérationnelle pourrait faire pencher la balance dans un marché où disponibilité des GPU et maillage réseau sont des points critiques.
Questions fréquentes
Qu’est-ce exactement que OCI Zettascale10 ?
Une architecture de cluster IA en nuage d’Oracle qui ajoute des centaines de milliers de GPU NVIDIA à travers plusieurs centres de données dans des macro-campus densément connectés, avec des pics allant jusqu’à 16 zettaFLOPS et une capacité multigigavolt.
Que propose Oracle Acceleron RoCE face aux réseaux traditionnels ?
Un réseau « large et peu profond » avec plans isolés qui redistribue le trafic en cas d’incident, réduit les niveaux du réseau (diminuant latence et coûts) et assure un performance stable pour l’entraînement à grande échelle.
Quand sera-t-il disponible et à quelle échelle ?
Oracle accepte les commandes dès aujourd’hui et prévoit une disponibilité dans la deuxième moitié de l’année prochaine, avec des clusters pouvant atteindre 800 000 GPU.
Quel lien avec OpenAI et Stargate ?
Zettascale10 est le socle informatique du supercluster d’Abilene (Texas) que Oracle et OpenAI exploiteront dans le cadre du programme Stargate, avec pour ambition de continuer à faire évoluer cette infrastructure.
Quels avantages en coûts/performance et en énergie ?
Oracle vise un rapport prix/rendement compétitif et une meilleure utilisation du cluster, grâce à l’optique linéaire (LPO/LRO) et à des architectures réseau qui diminuent la consommation pour libérer plus de ressources pour le calcul.