Oracle a dévoilé lors de AI World une avancée majeure en matière d’infrastructure pour l’IA, ainsi qu’une évolution significative dans la consommation multicloud :
- OCI Zettascale10 : un supercluster délivrant jusqu’à 16 zettaFLOPS de puissance maximale dans des clusters multigiga-volt, pouvant atteindre 800 000 GPU NVIDIA par déploiement, interconnectés via plusieurs centres de données.
- Oracle Acceleron RoCE : un nouveau réseau Ethernet avec RDMA qui simplifie la topologie, réduit la latence GPU-à-GPU, renforce la résilience grâce à des plans isolés et applique un chiffrement à la vitesse du filtre avec des politiques Zero Trust (ZPR) directement dans la NIC.
- Oracle Multicloud Universal Credits : un modèle unique de consommation et de licences pour Oracle Database et les services OCI, utilisable indistinctement sur Oracle Database@AWS, @Azure, @GCP et OCI avec des contrats et une gouvernance uniformes entre les clouds. Oracle opère déjà 37 régions multicloud actives avec AWS, Azure et Google Cloud.
« Avec Zettascale10, nous combinons l’architecture réseau Oracle Acceleron RoCE avec une infrastructure d’IA de nouvelle génération pour offrir une capacité multigiga-volt à une échelle sans précédent », a déclaré Mahesh Thiagarajan, EVP d’OCI.
Zettascale10 : plus que des zettaFLOPS
- Architecture distribuée : le supercluster se déploie dans plusieurs centres de données denses, interconnectés par fibre optique à haute capacité. La première mise en service se situe à Abilene (Texas).
- Objectif : former et inférer des modèles IA très volumineux avec une latence GPU-à-GPU uniforme et une performance prévisible.
Acceleron RoCE : RDMA sur Ethernet « large et léger »
- NICs avec commutateur intégré (4 ports) : chaque NIC GPU agit comme un mini-switch, se connectant à plusieurs plans de réseau physiques et logiques isolés.
- Moins de sauts, moins de files d’attente : topologie plus plane → latence plus faible et plus régulière entre GPU ; réduction des bottlenecks et des restarts liés aux checkpoints.
- Résilience opérationnelle : en cas de congestion ou de maintenance d’un plan, le trafic est redirigé sans interrompre les tâches en cours.
- Sécurité à la vitesse du réseau : chiffrement bout en bout et Zero-Trust Packet Routing intégrés directement dans la NIC, bloquant par exemple tout accès à l’object storage depuis Internet pour prévenir toute exfiltration.
- Optimisation : potentiel de doubler la capacité réseau, de multiplier les IOPS de stockage et de diminuer les coûts en réduisant le nombre de niveaux de réseaux.
Licences universelles multicloud : un seul contrat pour plusieurs cloud
Le nouveau Oracle Multicloud Universal Credits permet d’acheter Oracle Database et des services OCI avec des crédits réutilisables utilisés sur :
- Oracle Database@AWS
- Oracle Database@Azure
- Oracle Database@GCP
- OCI (natif)
Avantages :
- Contrat et gouvernance unifiés pour des déploiements hybrides ou multicloud.
- Même modèle de consommation entre les différents clouds : moins de friction commerciale et une véritable liberté de choix en matière de localisation.
- Intégration avec les 37 régions multicloud déjà en activité.
« Avec Multicloud Universal Credits, nous introduisons le premier modèle de consommation transcloud dans le secteur, simplifiant les contrats et offrant une flexibilité sans précédent », a déclaré Karan Batta, SVP d’OCI.
Pourquoi cela compte-t-il (pour les équipes IA et cloud)
- Échelle d’entraînement : jusqu’à 800 000 GPUs par cluster, avec RDMA à très basse latence et une topologie plus simple : moins de stragglers, plus de STP (traitement en direct sans intervention).
- Prédictibilité : latences GPU-à-GPU plus uniformes, avec moins de redémarrages dus aux erreurs de réseau et une maintenance par plan sans arrêter les travaux.
- Sécurité intégrée : ZPR dans la NIC et chiffrement à ligne, réduisant la surface d’attaque et le risque d’exfiltration.
- Multicloud de facto : licences portables pour bases de données et services OCI sur AWS/Azure/GCP/OCI, avec une gouvernance unique.
Principaux détails techniques (vue d’ensemble)
- Performance : jusqu’à 16 zettaFLOPS dans le supercluster Zettascale10.
- Interconnexion : InfiniBand et Acceleron RoCE (RDMA sur Ethernet) avec plans isolés et chiffrement line-rate.
- Exploitation : maintenance par plan, moins de niveaux de réseau, politiques Zero Trust dans les hôtes/NIC.
- Disponibilité : Zettascale10 est proposé en tant que supercluster avec jusqu’à 800 000 GPU ; la première implantation est située à Abilene (TX).
Questions rapides
Zettascale10 nécessite-t-il du hardware spécialisé ?
Oracle combine InfiniBand pour le HPC traditionnel et Acceleron RoCE (Ethernet RDMA avec hardware spécifique) pour faire évoluer l’IA avec latence ultra-faible, sans dépendre uniquement d’InfiniBand.
Quels avantages par rapport à un cluster GPU « classique » ?
Moins de sauts réseaux, une latence plus stable, une résilience grâce à la séparation par plans, un chiffrement et Zero Trust intégrés dans la NIC, et des déploiements rapides pour des clusters très vastes.
Comment le modèle de licences évolue-t-il ?
Avec Universal Credits, vous payez une fois pour acheter, puis utilisez où vous voulez Oracle Database ou OCI, dans tous les clouds (AWS/Azure/GCP/OCI), avec une gouvernance et des contrats unifiés.
Pour quelles charges cette solution est-elle adaptée ?
Pour l’entraînement ou le déploiement de modèles fondation gigantesques, multimodaux, MoE, RAG à grande échelle, ou pour le HPC exigeant RDMA et un réseau homogène à faible latence.
En résumé : Oracle transforme OCI en une plateforme d’IA à l’échelle zettascale grâce à un réseau RDMA propriétaire (Acceleron RoCE) et simplifie la consommation multicloud avec des licences universelles. Pour les organisations passant de POC à une IA industrialisée multi-cloud, la combinaison de performance, sécurité intégrée et flexibilité contractuelle constitue un avantage différenciateur.
source : oracle