NVIDIA Groq 3 LPX : le nouveau moteur pour l’inférence à faible latence

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

La grande course de l’IA ne se limite plus à la maîtrise de modèles de plus en plus gros. De plus en plus, le véritable goulet d’étranglement réside dans l’inférence: le temps nécessaire à un système pour commencer à répondre, la latence accumulée lorsque plusieurs agents interagissent et le coût pour maintenir cette rapidité à grande échelle. Dans ce contexte, NVIDIA a présenté Groq 3 LPX, un nouvel accélérateur rack-scale pour la plateforme Vera Rubin conçu spécifiquement pour des charges d’inférence à faible latence et pour gérer de très longs contextes, deux éléments toujours plus cruciaux dans la dénommée IA agentique.

La société le présente comme un complément à Vera Rubin NVL72, et non comme un remplaçant de ses GPU généralistes. L’objectif est de répartir la charge de travail : les GPU Rubin continueront de fournir la flexibilité nécessaire pour l’entraînement, le pré-remplissage, l’attention et le service à haut débit, tandis que LPX se chargera des parties les plus sensibles à la latence, notamment lors du décodage, là où chaque milliseconde devient critique dans les assistants de codage, copilotes, agents utilisant des outils ou systèmes multi-agents.

Une architecture pensée pour l’IA interactive

Ce qui est le plus remarquable dans cette annonce n’est pas tant le volume brut de calcul, mais plutôt le type de cas d’usage que NVIDIA souhaite cibler. Sa thèse est que l’inférence se divise en deux mondes. D’un côté, les charges orientées throughput, comme les embeddings, la modération, les pipelines batch ou les services massifs où il est primordial de maximiser le nombre de tokens par GPU ou par watt. De l’autre, croissent les scénarios où la latence est primordiale : assistants conversationnels, agents autonomes, synthèse vocale, traduction, raisonnement interactif ou systèmes enchaînant inférence, récupération, outils et appels successifs au modèle.

Dans ces cas, optimiser tout le pipeline selon un seul mode d’opération force à faire des compromis. Le matériel optimisé pour délivrer un throughput élevé avec de gros lots n’est pas toujours le meilleur pour générer rapidement, de façon stable, avec de petits lots. Et le matériel dédié à une réponse instantanée n’est pas forcément le plus efficace pour les phases intensives du pipeline. NVIDIA propose de résoudre cette problématique avec une architecture hétérogène : Rubin pour le travail lourd, LPX pour le décodage sensible à la latence, notamment dans des composants comme FFN et MoE.

Cette répartition repose aussi sur une conception très différente de celle d’une GPU classique. Le cœur du LPX, le Groq 3 LPU, privilégie une exécution déterministe, une mémoire SRAM-first, le déplacement explicite des données et une coordination étroite entre calcul et communication sous contrôle du compilateur. NVIDIA indique que chaque LPU intègre 500 Mo de SRAM intégré, dispose de 150 TB/s de bande passante interne et utilise des liens haute vitesse pour la communication entre puces, afin de réduire le jitter et rendre le traitement plus prédictible, crucial pour des réponses stables lors de l’interaction utilisateur. En clair, ce produit ne mise pas uniquement sur sa flexibilité, mais sur sa capacité à maintenir des délais de réponse constants lorsque l’expérience utilisateur en dépend.

Plus de tokens utiles, pas seulement plus de tokens

NVIDIA relie cette stratégie à une évolution plus large dans l’économie de l’IA. La société soutient qu’à mesure que les modèles atteignent des vitesses proches de 1 000 tokens par seconde par utilisateur, les interactions deviennent moins semblables à un chat tournant et plus à une collaboration continue, où agents raisonnent, simulent, consultent des outils et réagissent en temps réel. La justification de Groq 3 LPX repose sur cette vision : créer une nouvelle catégorie d’inférence où il ne suffit pas de traiter davantage de requêtes, mais de le faire avec plus d’immédiateté et moins de variabilité.

Pour rendre cette hétérogénéité opérationnelle, NVIDIA s’appuie sur Dynamo, son logiciel d’orchestration pour l’inférence distribuée. La société présente cette couche comme le pilote qui classifie les requêtes, oriente le pré-remplissage vers les GPU, coordonne l’échange d’activations entre Rubin et LPX durant le décodage, et aide à maîtriser la latence en période de trafic variable. LPX est aussi envisagé comme une pièce adaptée pour la décodification spéculative, agissant comme un moteur de prélude, en attendant que les GPU Rubin vérifient et acceptent les tokens générés par le modèle principal.

Cependant, il faut aborder avec prudence les chiffres spectaculaires annoncés. NVIDIA affirme que la combinaison Vera Rubin NVL72 + LPX peut offrir jusqu’à 35 fois plus de throughput d’inférence par mégawatt et jusqu’à 10 fois plus de potentiel de revenus pour des modèles de l’ordre du billion de paramètres, comparé aux systèmes antérieurs, notamment dans des services très interactifs et premium. Ce sont des métriques du fabricant, utiles pour connaître le positionnement produit, mais leur validation concrète devra attendre la mise en œuvre dans des déploiements réels.

Ce que Groq 3 LPX illustre en tout cas, c’est la direction stratégique adoptée par NVIDIA. La société ne souhaite pas seulement que la prochaine génération d’infrastructure IA se mesure à la quantité de tokens produite par un rack, mais surtout à la manière dont elle combine throughput, latence et efficacité économique par mégawatt. Dans cette optique, l’IA agentique ne dépend plus uniquement des modèles, mais aussi d’une nouvelle couche hardware spécialisée pour l’inférence interactive.

Questions fréquentes

Qu’est-ce que NVIDIA Groq 3 LPX exactement ?
Un nouvel accélérateur de type rack-scale pour l’inférence, présenté par NVIDIA pour sa plateforme Vera Rubin, destiné aux charges à faible latence, aux contextes longs et aux systèmes agentiques.

Quel rôle jouera-t-il par rapport à Vera Rubin NVL72 ?
Il est conçu comme un complément : Rubin continuera de gérer l’entraînement, le pré-remplissage, l’attention lors du décodage et le serving généraliste, tandis que LPX accélérera les parties du décodage les plus sensibles à la latence, comme FFN et MoE.

Quelles spécifications NVIDIA a-t-elle annoncées pour LPX ?
256 LPUs par rack, 315 PFLOPS en FP8, 128 Go de SRAM total, 40 PB/s de bande passante SRAM on-chip, 640 TB/s de bande passante d’expansion.

Pourquoi ce lancement est-il important pour l’IA agentique ?
Parce qu’elle exige des réponses plus rapides, une latence stable et une meilleure gestion des boucles d’inférence, outils et raisonnement. NVIDIA souhaite positionner LPX précisément à ce point du marché.

via : Présentation Nvidia Groq3