AMD, Nvidia et les hyperscalers stimulent l’optique pour l’IA

NVIDIA prépare un logiciel « opt-in » pour surveiller les flottes de GPU dans les centres de données et promet la transparence : pas de « kill switch » ni de portes dérobées

L’industrie de l’Intelligence Artificielle vient de franchir une étape cruciale, qui peut sembler technique mais vise en réalité le cœur des futurs superclusters d’entraînement et d’inférence. AMD, Broadcom, Meta, Microsoft, NVIDIA et OpenAI ont annoncé la création du groupe Optical Compute Interconnect (OCI) Multi-Source Agreement, un consortium qui ambitionne de définir une spécification ouverte pour l’interconnexion optique en vue de la montée en échelle des systèmes d’IA. En résumé : ils cherchent à préparer la substitution d’une partie du câblage en cuivre, actuellement utilisé pour relier accélérateurs et switches à l’intérieur de grands racks et zones de calcul, par des liens optiques spécifiquement conçus pour cela.

Ce qui rend cet annonce significative ne réside pas seulement dans la liste des partenaires, mais surtout dans le problème qu’elle entend résoudre. Avec la croissance des clusters d’IA, le trafic entre GPU, XPU et switches internes devient un des principaux goulots d’étranglement. Broadcom, par exemple, souligne que la progression de ces environnements approche les limites en termes de consommation, portée et densité du cuivre, surtout dans des architectures IA de plus en plus compactes et exigeantes. NVIDIA insiste également sur le fait que le « scale-up » en rack est une couche critique pour maintenir la performance, lorsque dizaines ou centaines d’accélérateurs doivent communiquer presque comme s’ils formaient un seul système.

OCI propose donc non pas un nouveau protocole fermé ou une plateforme propriétaire, mais une couche physique optique commune. Le consortium indique que son objectif est de créer une base interopérable permettant la coexistence de différentes architectures de processeurs, switches et technologies d’interconnexion, avec une approche multivendeur pensée pour répondre aux besoins effecifs des hyperéchelleurs. Concrètement, cela devrait permettre de réduire la dépendance à une seule chaîne d’approvisionnement et à une approche unique pour la connectivité interne des grands systèmes d’IA.

Du cuivre à l’optique à l’intérieur du rack

Jusqu’à présent, l’optique était surtout associée au « scale-out », c’est-à-dire aux connexions entre serveurs, racks ou infrastructures entières. En revanche, le « scale-up » dépendait largement de liens électriques de très courte portée pour relier GPU et switches avec une latence minimale. Or, la croissance des modèles et des domaines de calcul repousse cette frontière. La propre OCI MSA affirme que les limites physiques du cuivre conditionnent déjà l’architecture de ces systèmes, et que vers la fin de cette décennie, une migration vers l’optique dans cette couche interne sera inévitable.

La feuille de route initiale du groupe prévoit une démarche prudente mais ambitieuse. La spécification commence avec OCI GEN1, basé sur 4 longueurs d’onde à 50 Gb/s NRZ, correspondant à 200 Gb/s par voie. Elle prévoit une OCI GEN2 bidirectionnelle pouvant atteindre 400 Gb/s par voie, ou jusqu’à 800 Gb/s par fibre. Par la suite, un plan d’évolution prévoit d’augmenter le nombre de longueurs d’onde et les débits pour atteindre 3,2 Tb/s par fibre, voire plus. Il ne s’agit pas d’un produit commercial immédiat, mais d’une feuille de route pour plusieurs générations de matériel.

Un autre point clé concerne la diversité de formats envisageables. Le consortium mentionne notamment le support pour modules enfichables, optique sur carte (co-packaged optics, CPO), ainsi que d’autres solutions visant à rapprocher au maximum l’optique du silicium de traitement ou de commutation, afin de réduire consommation et densité. Broadcom, qui mène depuis plusieurs années cette voie, insiste sur le fait que la transition vers la CPO sera une étape essentielle pour continuer à faire évoluer les clusters IA sans faire exploser la consommation énergétique et thermique.

Un consortium porteur d’un message industriel très clair

Au-delà de la simple spécification technique, la création de l’OCI MSA traduit un changement de ton dans l’industrie. Il ne s’agit pas uniquement d’un groupe piloté par les fabricants de composants réseaux ou de semi-conducteurs, mais d’un rassemblement très représentatif de concepteurs de matériel et d’opérateurs d’infrastructures IA à grande échelle. Meta, Microsoft et OpenAI ne sont pas ici comme observateurs, mais comme membres fondateurs aux côtés d’AMD, Broadcom et NVIDIA. Ce détail est important, car il indique que la pression pour redéfinir la connectivité interne des systèmes IA ne provient pas seulement des vendeurs de puces ou de switches, mais aussi de ceux qui sont en charge de déployer des clusters de plus en plus gigantesques et coûteux.

Les déclarations de chaque acteur reflètent cette même orientation. AMD évoque la nécessité croissante de liens optiques « scale-up » pour les grands systèmes IA d’ici la fin de la décennie. Microsoft souligne que les technologies optiques, protocoles et architectures de switches orientés « scale-up » joueront un rôle fondamental pour bâtir des domaines de calcul haute performance répartis sur plusieurs racks. OpenAI relie directement cette évolution à l’augmentation de la puissance de calcul (en pétaflops), de la bande passante mémoire et réseau nécessaire pour poursuivre l’expansion des superordinateurs IA. Même si ces propos restent avant tout des messages corporate, ils dessinent une conclusion commune : le prochain goulot d’étranglement ne sera plus seulement le processeur ou l’accélérateur, mais aussi leur connectivité.

Il est également notable que NVIDIA s’intègre à une initiative de ce type tout en continuant à défendre son propre écosystème NVLink. Cela ne veut pas dire qu’elle renonce à ses solutions propriétaires, mais montre que le marché commence à accepter qu’une certaine interopérabilité dans la couche physique optique puisse bénéficier à différents acteurs, même dotés de technologies très différenciées. Tom’s Hardware interprète cette démarche comme une volonté de développer une base optique communautaire, permettant la coexistence de divers protocoles d’interconnexion proposés par différents fournisseurs d’accélérateurs.

Une évolution susceptible de transformer la conception des clusters IA

Si cette initiative se concrétise, son impact pourrait dépasser de loin la simple question du câblage. Une couche optique commune et ouverte pourrait réduire substantiellement les risques d’intégration, raccourcir les cycles de déploiement et ouvrir la porte à un éventail plus large de fournisseurs capables de participer à la construction de racks IA. Pour les hyperéchelleurs, cela apporterait plus de flexibilité dans la combinaison des éléments de calcul, de commutation et d’interconnexion optique, sans dépendre d’une architecture fermée. Au niveau de la chaîne d’approvisionnement, cela favoriserait la création d’un écosystème plus diversifié autour de l’optique courte portée pour l’IA. Sur le marché lui-même, cela pourrait faire évoluer le débat, en passant d’une focalisation exclusive sur la rapidité des GPU à une réflexion plus globale sur la qualité des interconnexions et leur standardisation.

Il faut cependant garder à l’esprit que OCI MSA est encore tout récent. La spécification et la feuille de route présentées ne constituent pas encore un produit prêt à transformer les datacenters dès demain. Reste à voir quelle traction elle gagnera, quel degré d’interopérabilité sera réellement atteint entre différentes générations de matériel, et comment elle cohabitera avec des écosystèmes déjà très en place dans le monde de l’IA. Mais la tendance est claire : l’optique n’est plus seulement une solution pour relier des racks, c’est une composante qui pourrait devenir centrale dans le domaine du calcul, surtout dans un contexte où les clusters IA continuent d’augmenter en taille. Cela pourrait devenir l’une des décisions majeures de cette décennie en matière d’infrastructure.

Questions fréquentes

Qu’est-ce que OCI MSA et à quoi sert-il ?

OCI MSA est un consortium constitué par AMD, Broadcom, Meta, Microsoft, NVIDIA et OpenAI, visant à définir une spécification ouverte pour l’interconnexion optique orientée « scale-up » des systèmes d’IA, c’est-à-dire la connectivité interne entre accélérateurs et switches dans de grands domaines de calcul.

Quelle vitesse promet la feuille de route d’OCI ?

Elle commence avec 200 Gb/s par voie dans OCI GEN1 et prévoit d’atteindre 800 Gb/s par fibre dans les premières générations, avec une évolution vers 3,2 Tb/s et plus dans la suite.

Pourquoi l’industrie veut-elle remplacer le cuivre par l’optique pour le « scale-up » de l’IA ?

Parce que le cuivre atteint déjà ses limites en termes de portée, consommation et densité dans les grands clusters IA. L’optique offre une voie pour continuer à augmenter le débit et la distance tout en respectant des objectifs énergétiques et de performance exigeants.

Est-ce que cela remplace des technologies comme NVLink ou UALink ?

Pas nécessairement. Le but du consortium est de bâtir une couche physique optique commune et interopérable qui puisse servir de base à divers designs et architectures, sans supprimer d’emblée les protocoles propriétaires de chaque fournisseur.

Source : tomshardware

le dernier