AMD et OpenAI lancent MRC, le protocole visant à éviter les goulets d’étranglement dans l’IA

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

AMD, OpenAI, Microsoft et d’autres grands acteurs de l’industrie ont présenté MRC, acronyme de Multipath Reliable Connection (connexion fiable multipath), un nouveau protocole réseau conçu pour améliorer la performance et la résilience des grands clusters d’entraînement en intelligence artificielle. La spécification a été publiée via l’Open Compute Project dans le but de faciliter son adoption par le secteur, au-delà des déploiements internes des entreprises impliquées dans son développement.

Certains pourraient penser que cette annonce est très technique, mais elle aborde l’une des problématiques majeures de l’IA moderne. Former des modèles avancés ne se limite plus à l’ajout de GPUs. À grande échelle, la véritable performance dépend aussi de la qualité du réseau qui connecte ces accélérateurs. Si des centaines de milliers d’accélérateurs doivent échanger des données de façon continue et synchronisée, toute congestion, lien instable ou panne d’un switch peut ralentir ou interrompre des tâches d’entraînement coûtant des millions.

Au cours des dernières années, la plupart des discussions sur l’infrastructure de l’IA se sont concentrées sur les GPU, la mémoire HBM, les chips personnalisés et la consommation énergétique. MRC change de focus en mettant en avant une autre couche tout aussi critique : la manière dont les données circulent à l’intérieur du superordinateur. OpenAI résume cela clairement : la conception du réseau détermine la capacité de calcul réellement exploitée.

Ce que change MRC par rapport aux réseaux traditionnels

Dans un réseau classique, une transmission suit généralement un seul chemin. Cette approche fonctionne dans des environnements standards, mais sur de grands clusters d’IA, elle peut créer des points de congestion. Plusieurs communications peuvent emprunter le même lien simultanément, augmentant la latence et affectant des opérations collectives où tous les accélérateurs doivent progresser à l’unisson.

MRC modifie ce modèle. Au lieu d’envoyer tous les paquets d’une transmission par une seule voie, il répartit ceux-ci sur plusieurs chemins simultanément. OpenAI décrit cela comme une dispersion de paquets à travers des centaines de routes dans des réseaux pluridimensionnels. Bien que les paquets puissent arriver dans un ordre désordonné, ils contiennent toutes les informations nécessaires pour être correctement réassemblés à destination.

L’objectif est de lisser la congestion et d’éviter qu’un lien particulier devienne le goulot d’étranglement du processus. En entraînement synchrone, la performance dépend souvent du maillon le plus lent plutôt que de la moyenne. Si une partie du réseau est lente, les autres GPUs attendent. Réduire les variations de latence est donc aussi crucial que d’augmenter le débit maximal.

MRC intègre également des mécanismes de détection et de récupération face aux défaillances. Si le protocole détecte une congestion sur un chemin, il peut le remplacer. En cas de perte d’un paquet, il suppose un problème sur ce tracé, cesse de l’utiliser et retransmet l’information manquante. OpenAI indique que la combinaison de réseaux pluridimensionnels, de l’équilibrage de charge, du packet spraying et du packet trimming permet de contourner des défaillances en quelques microsecondes, contre plusieurs secondes ou dizaines de secondes pour un réseau traditionnel à se stabiliser.

Un autre point clé est l’utilisation de la segmentation IPv6 SRv6 (Segment Routing). Avec cette méthode, l’émetteur peut spécifier explicitement le chemin que doit suivre chaque paquet, réduisant ainsi la dépendance aux protocoles de routage dynamique comme BGP dans le fabric. Pour de grands clusters IA, cela facilite la gestion et rend le comportement du réseau plus prévisible face aux incidents.

AMD renforce son engagement envers l’Ethernet ouvert avec MRC

Pour AMD, MRC arrive à un moment stratégique. La société ne se limite pas aux GPU avec la gamme Instinct, mais est aussi présente dans les CPU EPYC et dans les réseaux via sa technologie Pensando. Le message d’AMD est clair : l’infrastructure IA doit reposer sur une base ouverte, programmable et prête pour la production, plutôt que sur un ensemble de solutions fermées difficiles à adapter.

AMD indique avoir joué un rôle clé dans la définition de la spécification MRC, en apportant ses technologies de contrôle de congestion et en menant des déploiements pilotes. La société affirme également avoir déployé MRC aux côtés de sa technologie réseau dans des clusters tests à grande échelle avec un fournisseur cloud majeur. La précision est essentielle : il ne s’agit pas encore d’une adoption généralisée, mais de validations et déploiements initiaux à grande échelle.

Le hardware le plus visible est la AMD Pensando Pollara 400 AI NIC, une carte réseau de 400 Gbps conçue pour les charges IA. AMD met en avant son moteur programmable P4, ses capacités avancées en RDMA, la compatibilité avec le format OCP 3.0 et des fonctionnalités comme l’équilibrage intelligent, la récupération rapide et la gestion de congestion. Selon l’entreprise, la Pollara 400 pourra être mise à jour pour supporter de nouveaux standards évolutifs, un point crucial dans un marché où les protocoles réseau IA évoluent rapidement.

AMD associe également MRC à sa future solution AMD Pensando “Vulcano” 800G AI NIC, qui prendra en charge le même protocole de transport. Cette montée en débit vers 800 Gbps répond à la tendance du marché : les clusters IA ont besoin de plus de bande passante par nœud mais aussi d’une résilience accrue. Si un réseau 800G se comporte mal en conditions réelles, le débit brut n’a que peu de valeur. MRC cherche justement à combler cet écart entre vitesse théorique et performance utile.

Une alliance avec les concurrents autour d’une même spécification

La liste des participants illustre l’enjeu stratégique du protocole. La spécification MRC publiée par l’OCP rassemble des contributions d’AMD, Broadcom, Intel, Microsoft, NVIDIA et OpenAI. Si cela peut sembler atypique d’un point de vue commercial, cela témoigne de la nécessité pour ces acteurs de collaborer face à un défi commun. Aucun ne peut se permettre que les réseaux IA deviennent un goulot d’étranglement permanent.

NVIDIA a également annoncé le support du MRC dans Spectrum-X Ethernet. La société précise que le protocole peut fonctionner sur des connecteurs ConnectX SuperNICs et des switches Spectrum-X, ainsi qu’avec d’autres modèles de transport RDMA. Cela confirme que MRC n’est pas uniquement une initiative d’AMD, mais s’inscrit dans une conversation plus large autour d’un Ethernet optimisé pour l’IA.

La publication sur l’Open Compute Project revêt une importance industrielle notable. Le marché des réseaux pour l’IA est divisé entre diverses approches : InfiniBand, Ethernet avancé, Ultra Ethernet, solutions propriétaires, NICs programmables et fabrics spécifiques aux accélérateurs. En ouvrant MRC, les participants cherchent à établir une base commune permettant de faire évoluer les clusters d’entraînement sans dépendre exclusivement d’une solution fermée.

Pour les clients cloud, entreprises, centres de recherche ou projets d’IA souveraine, cette ouverture peut s’avérer stratégique. Le déploiement de l’IA s’étend au-delà des géants américains, avec des gouvernements, universités et fournisseurs régionaux cherchant à construire leur capacité propre. Ils ont besoin de technologies qui ne les obligent pas à rester bloqués dans une seule architecture. MRC ne résout pas tout seul cette question, mais indique la voie vers un réseau plus interoperable, adaptable et programmable.

La véritable adoption dépendra de nombreux facteurs : support hardware, maturité logiciel, intégration avec les frameworks d’entraînement, outils d’observabilité, coûts d’exploitation et disponibilité des équipements. Il faudra aussi surveiller comment MRC cohabite avec d’autres efforts de normalisation, comme Ultra Ethernet, ou avec les architectures réseau propres à chaque fournisseur.

Le message principal est limpide. La prochaine phase de l’IA ne sera pas uniquement dictée par le nombre de puces, mais par la capacité à déployer des systèmes complets capables d’utiliser ces puces efficacement, même en cas de panne partielle de l’infrastructure. MRC vise à rendre le réseau plus tolérant, moins fragile et plus adapté aux réalités des entraînements massifs.

Si le protocole fonctionne comme promis, il pourrait contribuer à réduire les temps d’arrêt, à améliorer l’utilisation des GPUs et à permettre des clusters plus importants en limitant la complexité opérationnelle. Dans un secteur où chaque point d’utilisation des accélérateurs influence directement coûts, consommation d’énergie et calendrier d’entraînement, la gestion du réseau devient un avantage concurrentiel à part entière.

Questions fréquentes

Qu’est-ce que MRC ?
MRC, ou Multipath Reliable Connection, est un protocole réseau destiné aux grands clusters d’entraînement en IA. Il répartit les paquets sur plusieurs routes pour diminuer la congestion et renforcer la récupération en cas de défaillances.

Qui a contribué à la création de MRC ?
La spécification rassemble les contributions d’AMD, Broadcom, Intel, Microsoft, NVIDIA et OpenAI, et a été publiée via l’Open Compute Project.

Pourquoi est-ce vital pour l’IA ?
Parce que les grands modèles nécessitent que des milliers ou centaines de milliers de GPU échangent des données en continu. En cas de panne ou de congestion du réseau, l’entraînement ralentit, même si la capacité de calcul est disponible.

Quel rôle joue AMD dans MRC ?
AMD affirme avoir co-dirigé la spécification, apporté de la technologie de contrôle de congestion, et déployé MRC dans son écosystème réseau, notamment avec la NIC AMD Pensando Pollara 400 et la future Vulcano 800G.

vía : amd