NVIDIA a présenté Nemotron 3 Super, un nouveau modèle ouvert de la famille Nemotron, conçu pour les charges lourdes en agents, le raisonnement sur de longues conversations, l’utilisation d’outils et les déploiements d’entreprise à grande échelle. La société le décrit comme un modèle hybride Mamba-Transformer MoE doté de 120 milliards de paramètres totaux, dont 12 milliards actifs lors de l’inférence, et offrant une fenêtre de contexte pouvant atteindre 1 million de tokens. La révélation a eu lieu les 10 et 11 mars via le site de recherche NVIDIA, son blog pour développeurs, NIM et Hugging Face.
Cette annonce est d’importance car elle intervient à un moment où le marché de l’intelligence artificielle open source ne se limite plus aux chatbots ou aux modèles génériques, mais s’oriente vers des systèmes capables de planifier, appeler des outils, maintenir un contexte dans de longues sessions et opérer comme des agents autonomes. NVIDIA cherche à positionner Nemotron 3 Super non pas comme un simple concurrent dans la course aux LLM, mais comme un composant spécifiquement conçu pour des flux complexes d’agents, RAG, automatisation de tickets, programmation et raisonnement étendu.
Un modèle pensé pour le contexte long et une efficacité réelle
Un des aspects les plus impressionnants de Nemotron 3 Super est sa structure architecturale. NVIDIA explique que le modèle utilise une approche LatentMoE combinant des couches Mamba-2, MoE et quelques couches d’attention, tout en incorporant la Multi-Token Prediction (MTP) pour accélérer la génération. Selon la société, cette configuration permet d’améliorer l’efficacité en termes de mémoire et de calcul, tout en conservant des capacités avancées de raisonnement et en supportant des contextes très longs. La documentation officielle souligne également que cette version « Super » de la famille Nemotron 3 est la première à intégrer LatentMoE, MTP et pré-entraînement en NVFP4.
Le chiffre du million de tokens suscite sans doute le plus d’intérêt. NVIDIA affirme que Nemotron 3 Super supporte jusqu’à 1 million de contexte et, lors de tests sur de longues ontologies comme RULER, il dépasse des modèles ouverts tels que GPT-OSS-120B et Qwen3.5-122B. Par ailleurs, son blog pour développeurs indique que cette large fenêtre vise à prévenir la perte d’état dans les systèmes d’agents et à réduire ce qu’on appelle le “goal drift”, un problème fréquent lorsqu’un agent doit maintenir une tâche complexe sur un grand nombre d’interactions.
Cela a une importance stratégique. En pratique, une fenêtre de contexte aussi vaste peut s’avérer particulièrement utile pour des agents manipulant une documentation étendue, des historiques longs, plusieurs outils ou des chaînes de raisonnement élaborées. Sans que cela garantisse systématiquement une meilleure performance dans tous les cas, NVIDIA veut répondre à l’un des plus grands défis actuels : maintenir une quantité importante d’informations pertinentes sans compromis sur la cohérence ou le coût opérationnel.
Ce que NVIDIA promet en termes de performance et déploiement
NVIDIA ne s’est pas contentée de décrire l’architecture. Elle a également publié des comparatifs de rendement et d’efficacité pour renforcer son annonce. Sur son site de recherche officiel, NVIDIA affirme que Nemotron 3 Super atteint jusqu’à 2,2 fois plus de débit d’inférence que GPT-OSS-120B et jusqu’à 7,5 fois celui de Qwen3.5-122B dans une configuration avec 8K tokens à l’entrée et 16K tokens en sortie. De plus, la précision est comparable ou supérieure selon plusieurs benchmarks. Bien que ces chiffres proviennent de NVIDIA, ils doivent être considérés comme des résultats internes plutôt que comme une validation indépendante définitive. Cependant, ils illustrent l’objectif du constructeur : positionner ce modèle comme une option ouverte et performante pour les charges axées sur les agents à grande échelle.
Le fiche technique officielle fournit aussi des détails pratiques importants. NVIDIA propose des variantes comme BF16 et FP8, avec des exigences matérielles différentes. Par exemple, la version en BF16 nécessite au minimum 8 H100 80 GB, tandis que la version FP8 réduit cette exigence à 2 H100 80 GB. Il est également indiqué que le modèle supporte plusieurs langues, y compris l’espagnol, et qu’il est conçu pour des flux de travail centrés sur les agents, le raisonnement longue portée, l’utilisation d’outils et les systèmes RAG.
Un autre aspect qui intéressera les équipes produit et infrastructure est la licence. NVIDIA présente Nemotron 3 Super comme un modèle en open source sous la NVIDIA Nemotron Open Model License. Tant sur NIM que sur Hugging Face, il insiste sur sa faisabilité pour un usage commercial dans ces conditions. Ce positionnement —modèle ouvert, large contexte, orientation agents et déploiement entreprise— explique pourquoi Nemotron 3 Super peut attirer aussi bien les entreprises que les projets open source en quête d’alternatives aux modèles propriétaires, de grande envergure.
Pourquoi cela peut intéresser les assistants ouverts et les cadres agéntiques
Bien que la communication autour du lancement évoque notamment des outils comme OpenClaw, le réel potentiel ne dépend pas d’une seule application, mais d’un certain type de système. Selon leur dépôt officiel, OpenClaw est un assistant personnel open source pouvant fonctionner sur plusieurs canaux et appareils. Un modèle comme Nemotron 3 Super, axé sur les agents, l’utilisation d’outils et le contexte étendu, correspond logiquement à ce genre d’architecture. Il peut également s’intégrer à d’autres assistants ouverts, systèmes RAG complexes ou flux multiagents. Cette lecture s’appuie sur les capacités publiques du modèle et sur le type de produit décrits par OpenClaw.
Reste que l’on ne doit pas trop exagérer. La possession d’un grand contexte ou d’une architecture efficace ne garantit pas à elle seule une supériorité pour tous les agents. La performance en déploiement réel dépend aussi de la qualité du fine-tuning, de la latence, du coût par token, de la stabilité lors de l’appel aux outils, de la facilité d’intégration et du comportement sur des tâches spécifiques. Cependant, il est clair que NVIDIA cherche à occuper un espace qui, jusqu’ici, était dominé par d’autres laboratoires : celui des modèles ouverts de haut niveau, orientés spécifiquement vers les agents.
Dans l’ensemble, Nemotron 3 Super va au-delà d’une simple mise à jour de catalogue. Son lancement indique que le marché ouvert de l’intelligence artificielle entre dans une nouvelle phase, où la seule taille ne suffit plus et où la longueur de contexte, l’efficacité, l’intégration d’outils et la capacité à soutenir des agents complexes comptent énormément. Dans ce contexte, NVIDIA veut affirmer que ce n’est pas seulement un fabricant de GPU, mais aussi un compétiteur en matière de modèles.
Questions fréquentes
Qu’est-ce que NVIDIA Nemotron 3 Super ?
C’est un nouveau modèle open source de NVIDIA destiné au raisonnement agent, à l’utilisation d’outils, au RAG et aux tâches longue portée, avec 120 milliards de paramètres, 12 milliards actifs et une capacité de un million de tokens de contexte.
Quelle architecture utilise Nemotron 3 Super ?
NVIDIA indique qu’il se base sur une architecture hybride LatentMoE combinant Mamba-2, MoE et des couches d’attention, complétée par Multi-Token Prediction pour accélérer l’inférence.
Combien de GPU faut-il pour faire fonctionner Nemotron 3 Super ?
Cela dépend de la variante. La fiche technique recommande environ 8× H100 80 GB pour la version BF16, ou bien 2× H100 80 GB pour la version FP8.
Nemotron 3 Super peut-il être utilisé dans des assistants ouverts comme OpenClaw ?
Théoriquement oui, car OpenClaw est un assistant open source, et Nemotron 3 Super est optimisé pour les agents, l’utilisation d’outils et un contexte étendu. Cependant, la compatibilité réelle dépendra des performances, de la latence, du coût et de l’intégration spécifique du système.