NVIDIA Redéfinit l’Infrastructure des Centres de Données pour l’IA Générative
NVIDIA se positionne comme un acteur clé de la transition vers des infrastructures centralisées de haute performance, répondant au besoin croissant de modèles génératifs avancés et de charges d’inférence. Sa technologie d’optique co-intégrée redéfinit les normes d’efficacité énergétique dans les centres de données.
Traditionnellement, la création de clusters d’IA reposait sur l’assemblage d’un maximum de GPU, leur connexion via des réseaux ultra-rapides et la fourniture d’énormes volumes de données. Cependant, l’essor de l’IA générative, qui passe de l’entraînement à un déploiement massif pour l’inférence, modifie ces principes de conception. Kevin Deierling, vice-président senior des réseaux chez NVIDIA, déclare à DataCenterDynamics que l’époque de l’inférence "légère" est révolue.
L’Inclusion de Ressources lors de l’Inférence
Selon Deierling, le marché évolue en trois phases :
- Pré-entraînement avec le développement de modèles de base.
- Post-entraînement où les modèles sont raffinés avec des centaines de pétaoctets de données.
- Test-time scaling où des ressources additionnelles sont allouées lors de l’inférence pour explorer plusieurs résultats possibles.
Ce dernier point représente un véritable changement de paradigme. Les modèles, comme le DeepSeek R1, exigeant des dizaines de GPU en parallèle même pour des tâches d’inférence, rendent pratiquement impossible leur exécution sur des dispositifs individuels.
Reutilisation des Clusters d’Entraînement
NVIDIA observe une tendance marquée chez ses clients avancés : la réutilisation des clusters d’entraînement pour les tâches d’inférence. Alors que l’inférence était censée être confinée à des machines distinctes, il est devenu clair que les modèles à forte valeur requièrent des architectures réseau complexes et densifiées.
L’Optique Co-Emballée (CPO) : Une Réponse Énergétique
Avec des centres de données capables de supporter des centaines de milliers de GPU, le principal obstacle à l’échelle n’est plus le coût du matériel, mais le budget énergétique. NVIDIA mise sur l’intégration d’optique co-emballée (CPO) : des commutateurs intégrant de la photonique directement sur le silicium, offrant des avantages tels qu’une réduction de 50 % de la consommation énergétique et moins de composants optiques externes.
Interconnexions Optiques et Latence Réduite
La vision de NVIDIA va au-delà de l’optimisation des racks. Des interconnexions optiques entre des campus entiers sont déjà mises en place, permettant des tâches d’entraînement multicluster. Alors qu’une latence de 200 ms est acceptable pour les utilisateurs, une latence sub-milliseconde est critique pour l’inférence agéntique, nécessitant des liens de très basse latence.
Évoluer au-delà du Matériel
La transition vers des processus de raisonnement complexes et distribués nécessite de repenser l’ensemble de l’infrastructure, de la gestion des réseaux à la consommation d’énergie. Selon NVIDIA, l’avenir des architectures ne dépendra pas de la séparation entre edge et cloud, mais de la façon de gérer l’informatique, le réseau et l’énergie de manière intégrée.
Source : actualités intelligence artificielle et DCD.