Oracle a annoncé la disponibilité générale de ses nouvelles instances bare metal dans Oracle Cloud Infrastructure (OCI) basées sur la AMD Instinct™ MI355X, la génération succédant à la MI300X, équipée de plus de mémoire HBM3e, d’un bande passante accrue et de nouvelles précisions FP4/FP6/FP8 grâce à l’architecture CDNA 4. Avec ce lancement, Oracle affirme devenir le premier hyperscaler à proposer publiquement MI355X et le seul à offrir dans son catalogue MI355X et MI300X.
Les avantages de MI355X par rapport à la génération précédente
- Mémoire et bande passante par GPU : 288 GB HBM3e (+50 %) avec 8 TB/s de bande passante (+51 %).
- Précision et performance : support FP4/FP6/FP8 dans CDNA 4 et une amélioration d’environ 2,5× en FP8/FP16 par rapport à la génération précédente (CDNA 3).
- Ressources système (par serveur) : CPU EPYC 5ᵉ génération (128 cœurs), 3 TB DDR5, 2,3 TB HBM3e additionnels (8×288 GB) et 61,44 TB de stockage local NVMe (+100 %).
- Réseau et évolutivité : 400 Gbps en “front-end” (x4) et baies refroidies par liquide pouvant accueillir jusqu’à 64 GPU par rack; 3 200 Gbps pour le réseau de cluster en entraînement distribué.
La nouvelle instance bare metal OCI (BM.GPU.MI355X.8)
- Nom : BM.GPU.MI355X.8
- Accélérateurs : 8× AMD Instinct™ MI355X (288 GB par GPU)
- Mémoire GPU additionnelle : 2,3 TB HBM3e
- Processeur / RAM système : 128 cœurs AMD EPYC 5ᵉ gen + 3 TB DDR5
- Stockage local : 61,44 TB
- Réseau : 400 Gbps (front-end) + 3 200 Gbps (cluster)
- Prix : à partir de 8,60 $/heure (selon Oracle)
Usage cible : entraînement de LLMs et de modèles multimodaux de grande taille, inférence en temps réel d’agents et MoE, tâches de contexte long (RAG, résumés) ainsi que de HPC (CAE, CFD, jumeaux numériques, génomique, climat, finance, GNN).
Zettascale dans le cloud : jusqu’à 131 072 GPU et RDMA à latence ultra-faible
Oracle rappelle que son OCI Supercluster Zettascale —le cœur de l’écosystème d’entraînement IA à grande échelle de la société— scale jusqu’à 131 072 GPU avec une réseau RDMA à haute performance et faible latence, ce qui en fait, selon Oracle, le plus grand “superordinateur” IA dans le cloud. Dans cet environnement, MI355X offre une « ≈3× » de puissance de calcul et une « +50 % » de mémoire HBM par rapport à la génération précédente, accélérant le time-to-train et l’efficacité des tâches distribuées.
Écosystème ouvert (ROCm) et compatibilité
Les instances MI355X dans OCI supportent ROCm™, la plateforme de calcul ouverte d’AMD. En plus des frameworks standards (PyTorch, TensorFlow, ONNX Runtime, Triton), AMD/Oracle mettent en avant des voies de portage de CUDA vers ROCm pour faciliter la migration sans nécessiter de réécritures massives.
Cas clients
- Absci (biotechnologie) : accélère la découverte de médicaments avec IA générative (MD à grande échelle, conception d’anticorps). Signale une latence de 2,5 µs en inter-GPU, un débit de l’ordre de TB/s et l’absence de surcharge hyperviseur dans OCI.
- Seekr (IA explicable) : contrat pluriannuel pour entraîner des modèles et agents de nouvelle génération à échelle mondiale sous OCI + AMD, avec accent sur calcul dense multinœud et présence internationale.
Pourquoi cela compte
- Mémoire et bande passante : les 288 GB HBM3e par GPU et les 8 TB/s ouvrent la voie à des contextes plus longs, plus de lots et moins de décharges vers le système, clés dans MoE et RAG.
- Coût/Performance : un prix d’entrée dès 8,60 $/h pour une instance à 8 GPUs MI355X en bare metal représente une offre agressive dans un marché sous tension par la disponibilité et le coût des GPU.
- Échelle : la combinaison de réseau (400 Gbps FE / 3,2 Tbps), baies refroidies par liquide et Zettascale laisse prévoir des grands clusters stables pour faire passer l’POC à une industrie de l’IA.
Comment commencer
Les instances BM.GPU.MI355X.8 sont dès à présent disponibles à la demande dans OCI et le seront au deuxième semestre de l’année prochaine, intégrées à la gamme d’infrastructures IA d’Oracle aux côtés du MI300X. Oracle a publié des ressources additionnelles lors de Oracle AI World 2025, comprenant des détails produits, des discours principaux et de la documentation technique.
Questions rapides
En quoi MI355X améliore-t-elle MI300X ?
Plus de HBM3e (288 GB par GPU), +51 % de bande passante (8 TB/s), de nouvelles précisions FP4/6/8 avec CDNA 4 et des améliorations du système (CPU, RAM, NVMe, réseau).
Pour quels types de charges cela convient-il ?
Entraînement et inférence de LLMs multimodaux, MoE, agents et contextes longs, ainsi que HPC (CAE/CFD, génomique, climat, finance, GNN).
Que propose OCI au niveau du cluster ?
Réseau RDMA à ultra basse latence, baies de refroidissement liquide, supercluster Zettascale jusqu’à 131 072 GPU et contrôles de souveraineté en cloud distribué.
Est-ce compatible avec mon environnement actuel ?
Supporte ROCm et frameworks standards ; des voies de portage de CUDA vers ROCm sont également disponibles pour une migration sans réécritures massives, selon AMD/Oracle.
Source : blogs.oracle