
NVIDIA Groq 3 LPX : le nouveau moteur pour l’inférence à faible latence
La grande course de l’IA ne se limite plus à la maîtrise de modèles de plus en plus gros. De plus en plus, le véritable goulet d’étranglement réside dans l’inférence: le temps nécessaire à un système pour commencer à répondre, la latence accumulée lorsque plusieurs agents interagissent et le coût pour maintenir cette rapidité à grande échelle. Dans ce contexte, NVIDIA a présenté Groq 3 LPX, un nouvel accélérateur rack-scale pour la plateforme Vera Rubin conçu spécifiquement pour des charges d’inférence à faible latence et pour gérer de très longs contextes, deux éléments toujours plus cruciaux dans la dénommée IA agentique. La société le présente comme un complément à Vera Rubin NVL72, et non comme un remplaçant de ses GPU




