AMD présente « Helios » : plateforme rack-scale ouverte sur Open Rack Wide (OCP) pour la prochaine vague de centres de données IA

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Dans le cadre du OCP Global Summit 2025, AMD a présenté pour la première fois en public — lors d’une exposition statique — sa plateforme “Helios”, un design rack-scale de référence pour l’infrastructure d’intelligence artificielle, construit sur la nouvelle norme Open Rack Wide (ORW), contribué au Open Compute Project par Meta. Cette annonce ne constitue pas un produit isolé : elle s’inscrit dans la stratégie déclarée d’AMD visant à déployer sa philosophie hardware ouverte “du silicium au système et jusqu’au rack”, avec pour objectif d’accélérer l’adoption d’architectures ouvertes, interopérables et évolutives à l’ère des data centers de gigawatts.

Ce concept associe GPU de la gamme AMD Instinct™, CPU EPYC™, et réseau avancé Pensando™ sur un châssis ORW double largeur, conçu pour répondre aux exigences en puissance, refroidissement et maintenabilité des nouveaux systèmes d’IA de prochaine génération. De plus, il intègre des normes en passe de devenir des références dans l’industrie : OCP DC-MHS (Data Center – Modular Hardware System), UALink (interconnexion ouverte pour accélérateurs) et architectures du Ultra Ethernet Consortium (UEC), avec un support pour des usines ouvertes à la échelle verticale (scale-up) et horizontale (scale-out). L’ensemble repose sur une refroidissement liquide par raccords rapides, un tissage Ethernet standardisé, et une disposition double qui facilite la servicabilité en environnement opérationnel.

“La collaboration ouverte est essentielle pour faire évoluer efficacement l’IA”, a souligné Forrest Norrod, vice-président exécutif et directeur général du Data Center Solutions Group d’AMD. “Avec Helios, nous transformons les normes ouvertes en systèmes concrets et déployables : en combinant AMD Instinct, EPYC et des usines ouvertes, nous offrons à l’industrie une plateforme flexible et de haute performance pensée pour la prochaine génération de charges IA”.

ORW : une “double largeur” pensée pour l’IA de demain

Le Open Rack Wide (ORW), proposé par Meta et adopté par OCP, définit un rack ouvert de double largeur optimisé pour répondre aux besoins électriques et thermiques des serveurs d’IA de nouvelle génération. En pratique, ORW étend l’environnement physique pour :

Loger des systèmes d’accélération denses avec des plans d’alimentation plus robustes.
Simplifier le refroidissement liquide (collecteurs, retour, raccords rapides) et maintenir un rendement thermique constant.
Améliorer la servicabilité (accès frontal/arrière, blind-mate, remplacement de modules) et réduire les délais d’intervention.

AMD adopte ORW comme base structurelle pour Helios et l’associe à un catalogue OCP déjà mature (canalisations d’alimentation, busbars, sleds et plateaux modulaire) afin de définir un sol commun que OEM, ODM et hyper-scalers peuvent adapter, étendre et personnaliser sans repartir de zéro pour chaque pièce.

Du chip au rack : pièces ouvertes, en scale-up et scale-out

Au niveau des usines d’interconnexion, Helios est conçu pour cohabiter avec deux grands paradigmes d’échelle :

Scale-up (accélérateurs fortement intégrés en chassis, node-level), où UALink aspire à standardiser l’interconnexion GPU-GPU — avec une faible latence et une bande passante élevée — en topologies cohérentes pour l’entraînement et l’inférence à grande échelle.
Scale-out (multiples nœuds/racks connectés en réseau), où le UEC (Ultra Ethernet Consortium) pousse l’Ethernet de nouvelle génération (congestion control, path diversity, télémétrie, NIC offloads) pour transformer le réseau en un tissu haute performance et multi-chemin capable de transporter efficacement le trafic IA de bout en bout (end-to-end).

Ce alignement avec OCP DC-MHS — la spécification modulaire de matériel pour data centers — ajoute une couche supplémentaire d’interopérabilité : sleds et modules avec des interfaces communes pour CPU, GPU, mémoire, stockage et gestion qui accélèrent le time-to-build et réduisent le cycle d’intégration.

Helios, dans ce contexte, n’est pas un produit fermé mais une plateforme de référence : une “modèle type” rack-scale qui réduit le temps de conception, de validation et de déploiement, tout en maximisant la compatibilité avec des écosystèmes ouverts (OCP, UALink, UEC). Pour hyper-scalers et fournisseurs de cloud, cela se traduit par un risque réduit de verrouillage propriétaire, plus d’opportunités et une meilleure réutilisation des composants à travers les générations.

Refroidissement liquide et service : pragmatisme “data center-first”

L’approche proposée par AMD met en avant deux aspects opérationnels clés pour l’IA :

Refroidissement liquide avec raccords rapides
Les accélérateurs d’IA modernes dissipent des puissances dépassant le kilowatt par dispositif. Le refroidissement liquide n’est pas un ornement : il permet de maintenir la fréquence et la fiabilité à long terme. Les raccords rapides (sans outils, sans goutte-à-goutte) favorisent la maintenance, réparation et opérations (MRO) et réduisent le MTTR (temps moyen de réparation).
Double largeur pour une servicabilité optimale
Le châssis ORW de double largeur offre un espace supplémentaire pour le passage des câbles, les collecteurs de liquide et les modules amovibles accessibles, un critère essentiel lorsque le flotte à grande échelle nécessite des interventions rapides et sécurisées, sans pénaliser la densité ni la performance.

En complément, l’utilisation d’un Ethernet standardisé avec une résilience multipaths, alignée avec les meilleures pratiques en opération sans état et télémétrie granulaire, constitue une pièce maîtresse pour observer points chauds, pertes et colis dans les réseaux IA.

Pourquoi cela importe-t-il ? Trois perspectives pour l’écosystème

1) Un signal en faveur de l’ouverture dans l’IA haute performance
Dans la course à l’infrastructure IA, AMD mise sur une voie ouverte et standardisée — non seulement pour le silicium, mais aussi pour l’interconnexion, le châssis et le rack. Pour les opérateurs, cela signifie réduire les coûts d’intégration, éviter le verrouillage propriétaire et accélérer le déploiement.

2) Un “pont” entre des feuilles de route disjointes
Les CPU EPYC, GPU Instinct, Pensando en réseau, UALink pour GPU-à-GPU, et UEC pour le communication east-west forment un point de convergence entre fournisseurs et générations, indispensable pour une montée en puissance rapide dans les data centers de gigawatts.

3) La durabilité opérationnelle
Le rack-scale avec refroidissement liquide et modularité ne vise pas uniquement la performance : il favorise aussi l’efficacité énergétique, un meilleur PUE, et des cycles de vie plus durables. Ces trois objectifs, que revendiquent les hyperscalers européens et nord-américains, s’inscrivent dans leurs démarches de décarbonisation et de gestion des limites électriques.

Ce que “Helios” est (et n’est pas) aujourd’hui

Est un design de référence rack-scale aligné avec ORW (OCP), intégrant CPU EPYC, GPU Instinct et réseau Pensando, illustrant comment combiner DC-MHS, UALink et UEC dans un rack double largeur avec refroidissement liquide et Ethernet.
N’est pas (encore) un produit commercial clos avec SKU et canal définit ; le but est d’accélérer l’adoption et la personnalisation par OEM/ODM/hiperscalers de systèmes ouverts IA/HPC.