Broadcom a annoncé Thor Ultra, qu’il présente comme la première carte réseau Ethernet (NIC) de 800G spécialement conçue pour l’IA. Ce lancement vise un objectif clair : interconnecter des centaines de milliers d’XPUs (GPU, CPU et autres accélérateurs) afin de entraîner et déployer des modèles ultramassifs de milliards de paramètres sur des réseaux Ethernet ouverts et normalisés. La clé stratégique réside dans son adhérence complète à la spécification du Ultra Ethernet Consortium (UEC), modernisant le RDMA pour des architectures de commutation à grande échelle et évitant la dépendance à des solutions propriétaires.
Les solutions apportées par Thor Ultra : un RDMA « repensé » pour une IA à grande échelle
Dans les réseaux IA massifs, le RDMA traditionnel présente des limitations : absence de multipathing efficace, livraison strictement ordonnée, retransmission peu granulaire et gestion de congestion difficile à faire évoluer. Thor Ultra, conformément à l’UEC, introduit un ensemble d’innovations pour y remédier :
- Multipathing au niveau du paquet pour équilibrer la charge à travers le tissu réseau.
- Livraison hors order directement en mémoire de l’XPU, ce qui optimise l’utilisation du réseau sans bloquer les flux par réorganisation.
- Retransmission sélective, évitant des répétitions inutiles et accélérant le Job Completion Time (JCT).
- Contrôle de congestion programmable avec des algorithmes sur le récepteur et l’émetteur, pour maîtriser pics et micro-congestions sans pénaliser la latence.
Au final, cela permet un rendement accru et soutenu dans des clusters IA et une moindre dépendance aux piles propriétaires : étant conforme à l’UEC, le client peut combiner Thor Ultra avec n’importe quel XPu, optical ou switch compatible, depuis la couche top-of-rack jusqu’aux spines à très haute densité.
Matériel et déchargements (offloads) : 800G en toute sécurité et avec latence maîtrisée
Thor Ultra est disponible en formats standard PCIe CEM et OCP 3.0, avec une interface hôte PCI Express Gen6 x16, utilisant des SerDes PAM4 de 200G ou 100G compatibles avec le câble passif longue portée. Broadcom met en avant une Taux d’Erreur de Bit (BER) leader sur ses SerDes, ce qui contribue à réduire les flaps de liaison et à diminuer le JCT lors des phases d’entraînement et de déploiement.
En termes de sécurité et d’efficacité, la NIC intègre :
- Ciphering/deciphering en ligne avec offload PSP, déchargeant la XPU des tâches cryptographiques intensives.
- Boot sécurisé avec firmware signé et attestation du dispositif.
- Canal de congestion programmable, packet trimming et signaling de congestion (CSIG) pour la télémétrie et la correction en temps réel.
Un écosystème ouvert : Tomahawk, Jericho et Scale-Up Ethernet
Thor Ultra s’intègre dans la gamme Ethernet dédiée à l’IA de Broadcom : Tomahawk 6, Tomahawk 6-Davisson, Tomahawk Ultra, Jericho 4 et Scale-Up Ethernet (SUE). Cette combinaison permet de déployer des réseaux Ethernet à 800G avec télémétrie avancée, visibilité end-to-end et compatibilité CSIG, en architectures Ethernet Endpoint-Scheduled ou Fabric-Scheduled définies par l’UEC. Pour le client final, cela signifie une liberté de choix (NICs, switches, optiques) et une courbe d’adoption moins dépendante des fournisseurs verticalisés.
Pourquoi maintenant : faire évoluer l’IA sans changer de « langage » réseau
L’émergence des réseaux RoCE/UEC sur Ethernet répond à deux deux pressions : la pénurie de composants dans des solutions fermées et la nécessité de normaliser les opérations à mesure que les clusters s’agrandissent de dizaines à centaines de milliers de nœuds. Avec Thor Ultra, Broadcom affirme que Ethernet peut supporter l’IA de prochaine génération si le RDMA évolue : multipathing fin, réorganisation intelligente et contrôle de congestion distribué. De plus, la compatibilité avec DACs longue portée, formats OCP et PCIe Gen6 simplifie l’intégration dans des racks existants et une migration progressive.
Cas d’usage : du pre-fill massif au decoding distribué
Les contraintes réseau évoluent selon les phases du cycle IA :
- En entraînement et pre-fill, le network doit fournir une bande passante soutenue et un minimum de réorganisation ; le multipathing par paquet évite toute saturation.
- Pour l’inférence et le déchiffrement longue durée, la retransmission sélective et la CSIG réduisent les files d’attente et stabilisent la latence p99, essentielles pour les SLA et services temps réel.
- Dans des environnements multi-tenant, la sécurité en ligne, le démarrage vérifié et l’attestation assurent une segmentation forte et une auditabilité sans compromettre le throughput.
Disponibilité et prochaines étapes
Thor Ultra est déjà en phase de testing pour des clients et partenaires. La société positionne cette NIC comme un élément clé dans ses fabrics IA basés sur Ethernet, avec une feuille de route axée sur interopérabilité UEC, télémétrie fine et réduction du JCT sur de grands déploiements.
Fiche technique (résumé)
- Vitesse : 800G Ethernet
- Standards : Conformité totale à l’UEC, RDMA avec multipathing par paquet, livraison hors order, retransmission sélective et contrôle de congestion programmable (émetteur/récepteur)
- Interface hôte : PCIe Gen6 x16
- Forma t : PCIe CEM et OCP 3.0
- SerDes : PAM4 200G / 100G avec long reach et faible BER; prise en charge des DAC passifs longue portée
- Sécurité : cryptage/décryptage en ligne avec offload PSP, boot sécurisé, firmware signé, attestation
- Télémétrie et contrôle : canal de congestion programmable, packet trimming, CSIG
- Écosystème : compatibilité avec Tomahawk 5/6, Tomahawk Ultra, Jericho 4, SUE et switches conformes UEC
Points clés pour architectes réseau et équipes platform
- Conception du fabric : planifier un ECMP profond en tirant avantage du multipathing par paquet et de la place hors order pour éviter les congestions en spines et superspines.
- SLA d’inférence : combiner retransmission sélective, CSIG et algorithmes de congestion programmables pour stabiliser les latences p95/p99 dans des charges mixtes (pre-fill + decoding).
- Sécurité par défaut : activer boot sécurisé, attestation et cryptage en ligne pour isoler efficacement les tenants et les environnements réglementés.
- Stratégie d’interopérabilité : valider l’interopérabilité des optiques, switches et XPUs de différents fournisseurs sous l’égide UEC, en priorisant observation et convergence face aux défaillances.
En résumé : avec Thor Ultra, Broadcom souhaite fixer la norme de la NIC Ethernet pour l’IA à 800G et accélérer la transition vers des fabrics ouverts conformes à l’UEC. Si Ethernet doit devenir le réseau natif de l’IA à grande échelle, il lui fallait une RDMA nouvelle génération ; cette architecture positionne la NIC au cœur du fabric pour réduire le JCT, contener les coûts et éviter le verrouillage propriétaire.