Oracle a annoncé la disponibilité générale de son nouveau supercluster d’Oracle Cloud Infrastructure (OCI), équipé des puissantes GPU Nvidia H200. Ce supercluster, qui peut être échelonné jusqu’à 65 536 GPU H200, promet une performance sans précédent pour les applications d’intelligence artificielle (IA), atteignant jusqu’à 260 exaflopsUn exaflop est une unité de mesure en supercalcul qui … de performance maximale en précision FP8, selon les informations communiquées par l’entreprise.
La plus grande infrastructure IA dans le cloud
Oracle affirme que ce supercluster est actuellement le superordinateur le plus grand basé sur le cloud pour l’IA. Chaque instance de calcul dans le supercluster offre 76 % de mémoire à grande vitesse en plus et 40 % de plus de bande passanteLa bande passante est la capacité maximale de transfert de… mémoire par rapport aux instances H100, ce qui améliore la performance d’inférence sur les modèles de langues de grande taille (LLM) jusqu’à 1,9 fois.
Le système dispose d’un réseau de cluster personnalisé basé sur RDMA sur Ethernet Convergé Version 2 (RoCE v2), qui utilise des cartes d’interface réseau Nvidia ConnectX-7. Cette architecture permet des interconnexions entre les GPU allant jusqu’à 400 Gbps, tandis que son réseau frontal de 200 Gbps facilite le transfert efficace de grands ensembles de données entre le stockage et les GPU.
Chaque instance en bare metal est équipée de huit GPU Nvidia H200 avec 141 GB de mémoire HBM3e, ainsi que de deux CPU Intel Sapphire Rapids 8480+ de 56 cœurs.
Des coûts accessibles et une performance améliorée
Oracle maintient sa politique de prix compétitive : 10 dollars par GPU par heure, le même coût que les instances H100. Cela offre aux entreprises un accès plus abordable à une infrastructure d’IA de pointe.
Le supercluster surpasse également son prédécesseur H100, qui pouvait être échelonné jusqu’à 16 384 GPU, s’érigeant ainsi en option idéale pour les charges de travail massives telles que l’entraînement et l’inférence de modèles d’IA de dernière génération.
Regarder vers l’avenir : Nvidia Blackwell
En septembre 2024, Oracle a dévoilé ses plans pour construire un supercluster encore plus avancé, qui disposera de jusqu’à 131 072 GPU Nvidia Blackwell, prévus pour être lancés dans la première moitié de 2025. Ce développement représente l’engagement continu d’Oracle à mener l’innovation en matière de calcul dans le cloud pour l’IA.
Un bond vers la prochaine génération d’IA
Le supercluster d’Oracle avec Nvidia H200 redéfinit les limites de la calcul dans le cloud pour les applications d’intelligence artificielle. Grâce à sa performance évolutive et ses coûts compétitifs, il se positionne comme un outil clé pour les entreprises qui cherchent à exploiter l’IA pour résoudre des problèmes complexes, allant de l’analyse de données à la génération de modèles de langues avancés.
Avec cette infrastructure, Oracle répond non seulement aux exigences actuelles de traitement massif, mais jette également les bases pour les avancées futures en IA et en calcul haute performance.
via : DCD