UC San Diego renforce sa recherche en inférence de LLM avec un système NVIDIA DGX B200

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

La course à la mise en service de modèles de langage à faible latence ne se résume plus seulement à des articles et des benchmarks : de plus en plus, la victoire se joue dans le laboratoire de systèmes, où le goulet d’étranglement réside souvent dans la façon dont le modèle est « servi » en production. Dans ce contexte, le Hao AI Lab de l’Université de Californie à San Diego (UC San Diego) a intégré un système NVIDIA DGX B200 pour accélérer ses travaux sur l’inférence de grands modèles, une infrastructure également accessible à la communauté universitaire via le San Diego Supercomputer Center.

Cette actualité dépasse le simple battage autour du « nouveau matériel » : plusieurs approches, aujourd’hui considérées comme standard — ou au moins incontournables — dans les plateformes d’inférence à grande échelle, découlent d’idées issues de ce groupe. NVIDIA souligne que certains concepts de recherche développés au Hao AI Lab ont influencé des solutions d’inférence en production, notamment des projets comme DistServe, axés sur l’amélioration de l’efficacité sans sacrifier l’expérience utilisateur.

De « plus de tokens par seconde » à « de bonnes performances avec la latence exigée par l’utilisateur »

Pendant des années, la métrique dominante pour comparer les moteurs d’inférence a été le débit : combien de tokens par seconde le système peut produire. Le problème est que cette valeur seule ne reflète pas ce que perçoit une personne attendant la réponse du modèle. En pratique, exiger une latence plus faible implique souvent de faire une croix sur une partie du débit.

C’est là qu’intervient le concept de goodput, une métrique visant à capturer la performance « utile » : le débit qui reste performant tout en respectant des objectifs de latence (SLO). Popularisée dans cette ligne de recherche, cette approche devient particulièrement pertinente à mesure que les grands modèles de langage (LLM) passent de démos à des produits avec des engagements de service concrets : il ne suffit pas de générer beaucoup, il faut générer vite, de manière constante, tout en maîtrisant les coûts.

Séparer prefill et decode : un choix architectural ayant un impact concret

Dans un flux d’inférence typique, le système effectue d’abord le prefill (traitement du prompt pour générer le premier token), puis passe en mode decode (génération séquentielle des tokens de sortie). Historiquement, ces deux phases se déroulaient sur la même GPU, ce qui provoquait une compétition pour les ressources : le prefill étant généralement plus intensif en calcul, tandis que le decode est davantage contraint par la mémoire et l’accès efficace aux caches.

La stratégie de « dissociation » — séparant prefill et decode sur différents groupes de GPU — vise à réduire cette interference et à améliorer le goodput. NVIDIA voit dans cette approche une voie pour scaler tout en conservant une faible latence, en lien avec NVIDIA Dynamo, leur projet open source conçu pour déployer ce type d’inférence dissociée dans des environnements où l’efficacité opérationnelle est primordiale.

Pourquoi le DGX B200 ici, et pourquoi maintenant ?

Pour un laboratoire travaillant à servir des modèles en temps réel, un système DGX B200 n’est pas simplement « plus de GPU » : c’est une manière d’itérer davantage, d’expérimenter plus vite et de valider avec moins de friction. L’équipe de l’UC San Diego le présente ainsi : pouvoir prototyper et expérimenter « beaucoup plus rapidement » que précédemment.

Sur le plan technique, le DGX B200 est conçu comme un système polyvalent destiné à la formation et à l’inférence, assemblé autour de huit GPU NVIDIA B200, avec une configuration permettant de répondre aux exigences élevées en mémoire et en communication interne. La documentation NVIDIA insiste sur le fait que le système intègre 1 440 Go de mémoire GPU totale et une interconnexion à haute vitesse via NVLink/NVSwitch, une base essentielle pour maintenir des latences stables et des performances soutenues sous charge. En d’autres termes, si l’objectif est d’optimiser le « service » plutôt que le simple « modèle », alors la plateforme a son importance.

FastVideo et Lmgame-bench : vidéo générative en temps réel et jeux vidéo comme bancs d’essai

Le lancement du DGX B200 est également lié à des projets concrets du Hao AI Lab. Parmi eux, FastVideo vise à entraîner des modèles de génération vidéo capables de produire des clips de cinq secondes à partir d’un prompt en un temps équivalent : cinq secondes. L’objectif est d’atteindre un seuil psychologique crucial pour un produit : passer de « patienter » à « interagir ».

Le second est Lmgame-bench, une série de tests évaluant des modèles via des jeux vidéo populaires comme Tetris ou Super Mario Bros. Au-delà d’un clin d’œil culturel, cette approche repose sur une logique ingénieuse : les jeux obligent à prendre des décisions séquentielles, à s’adapter à des états changeants et à répondre rapidement, des conditions qui ressemblent fortement à ce qui est attendu d’un agent en production lorsqu’il « vit » dans un système.

Une lecture essentielle pour le secteur : l’inférence comme discipline à part entière

Qu’un laboratoire académique possède une plateforme DGX de dernière génération est souvent perçu comme un signe de capacité de calcul. Mais l’enjeu réel est ailleurs : l’inférence s’impose comme une discipline propre, avec ses métriques (comme le goodput), ses architectures (disaggregation prefill/decode) et ses outils destinés à industrialiser la latence faible, sans faire du coût un problème insurmontable.

Et cela constitue un signal clair pour l’écosystème : la prochaine avantage compétitive ne sera pas uniquement de « former des modèles plus grands », mais aussi de les servir de façon optimisée, avec plus de contrôle sur l’expérience, l’efficacité et la scalabilité.

Source : Noticias inteligencia artificial