NVIDIA a franchi une étape qui s’attaque directement au cœur de la prochaine vague de logiciels : les systèmes multiagents. La société a annoncé Nemotron 3, une nouvelle famille de modèles ouverts — en tailles Nano, Super et Ultra — accompagnée de datasets et de librairies pour l’entraînement et le post-entraînement, avec un objectif clair : rendre le développement d’agents spécialisés plus abordable, plus transparent et plus simple à déployer en production.
Cette démarche n’est pas anecdotique. Le marché s’éloigne du simple « chatbot unique » pour adopter des architectures où plusieurs agents répartissent, coordonnent et ajustent leurs tâches mutuellement. Mais cette coordination a un coût : plus de tokens, plus de latence, des coûts d’inférence plus élevés, et un risque accru de « dérive de contexte » lorsque les flux s’allongent. Face à cela, NVIDIA cherche à concilier deux promesses souvent antagonistes : efficacité et ouverture.
Un MoE « hybride » pour réduire les coûts dans l’univers multiagent
L’élément technique central de cette annonce est une architecture hybride de mélangeur d’experts (MoE) latent. Concrètement, cela signifie que le modèle n’active pas l’ensemble de sa taille à chaque token, mais qu’il ne mobilise qu’une partie — les « experts » — afin de traiter le besoin immédiat. NVIDIA garantit que cette approche permet à Nemotron 3 Nano d’atteindre jusqu’à 4 fois le débit de Nemotron 2 Nano, tout en réduisant la génération de tokens de raisonnement jusqu’à 60%, visant à abaisser le coût pour des flux longs et des systèmes comportant de nombreux agents simultanés.
Cette efficacité est particulièrement cruciale pour les entreprises qui construisent des routeurs de modèles : utiliser un modèle propriétaire très puissant pour des tâches à haute valeur ajoutée, tout en déléguant le reste (résumés, extraction, classification, support interne, récupération d’informations) à des modèles ouverts plus contrôlables et à coûts maîtrisés. NVIDIA insiste sur le fait que la “tokenomique” — le coût opérationnel d’un agent — devient une variable stratégique cruciale.
Trois tailles : Nano dès maintenant ; Super et Ultra en 2026
La famille se déploie en trois niveaux :
- Nemotron 3 Nano : un modèle de 30 milliards de paramètres capable d’activer jusqu’à 3 milliards de paramètres par token. Il est présenté comme le « cheval de bataille » pour des tâches efficaces : nettoyage logiciel, résumés, flux d’assistants, recherche et récupération avec un faible coût.
- Nemotron 3 Super : orienté vers un raisonnement précis pour des applications multiagents, avec environ 100 milliards de paramètres et jusqu’à 10 milliards d’actifs par token.
- Nemotron 3 Ultra : conçu comme un moteur de raisonnement pour des tâches complexes, avec environ 500 milliards de paramètres et jusqu’à 50 milliards d’actifs par token.
Concernant la disponibilité, NVIDIA établit une frontière claire : Nano est disponible dès maintenant, tandis que Super et Ultra sont attendus pour la première moitié de 2026.
Un chiffre notable, qui prime parfois sur la taille : Nemotron 3 Nano bénéficie d’une fenêtre de contexte de 1 000 000 de tokens. Ce volume permet de gérer des flux longs, une mémoire opérationnelle étendue, et des tâches multiétapes où le modèle doit conserver une grande partie de l’historique sans se dégrader.
« Ce n’est pas seulement un modèle » : datasets et librairies pour entraîner des agents
L’annonce ne se limite pas à des modèles open source. NVIDIA affirme être « la première » à publier un ensemble complet de modèles + datasets + environnements/librairies de reinforcement learning destinés à créer des agents spécialisés avec précision et efficacité. Plus précisément, elle évoque trois milliards (trillion) de tokens dans des datasets de pré-entraînement, post-entraînement et RL, ainsi qu’un Nemotron Agentic Safety Dataset pour évaluer et renforcer la sécurité des systèmes d’agents complexes.
Côté outils, la société lance NeMo Gym et NeMo RL, des librairies open source pour l’entraînement et le post-entraînement, ainsi que NeMo Evaluator pour la validation de la sécurité et des performances. Tous ces outils sont disponibles sur GitHub et Hugging Face, avec des intégrations dans l’écosystème.
Écosystème et déploiement : du PC à l’entreprise
NVIDIA s’efforce de faire en sorte que Nemotron 3 ne reste pas en laboratoire. La compatibilité passe notamment par des outils et runtimes très populaires : LM Studio, llama.cpp, SGLang et vLLM.
La disponibilité de Nemotron 3 Nano est assurée sur Hugging Face et via des fournisseurs d’inférence tels que Baseten, DeepInfra, Fireworks, FriendliAI, OpenRouter et Together AI, entre autres.
Pour le secteur entreprise, NVIDIA propose sa propre solution : NVIDIA NIM. Il s’agit d’un microservice permettant un déploiement « sur toute infrastructure accélérée par NVIDIA », dans un souci de confidentialité et de contrôle.
Simultanément, la société souligne l’adoption précoce par des entreprises et des cabinets de conseil (acteurs de l’intégration comme des plateformes logiciel) comme preuve que ces modèles sont pensés pour des déploiements concrets, pas seulement pour des démos.
Implications pour le marché (et pourquoi cela arrive maintenant)
Nemotron 3 intervient à un moment où beaucoup d’organisations ont découvert une vérité : les agents fonctionnent, mais cela coûte cher. Chaque étape supplémentaire de raisonnement, chaque outil connecté, chaque vérification engendre des tokens, de la latence et des coûts opérationnels. Pour passer de pilotes à la production, l’efficacité devient un critère essentiel, voire stratégique, dans le budget.
NVIDIA mise sur un chemin intermédiaire — modèles ouverts performants, ajustés avec datasets et reinforcement learning, et pouvant cohabiter avec des modèles propriétaires si nécessaire — qui devrait s’imposer d’ici 2026. Leur stratégie : offrir une infrastructure ouverte avec des performances compétitives, des outils d’entraînement, et une démarche de souveraineté et de contrôle conforme aux réglementations et stratégies nationales.
Questions fréquentes
Qu’est-ce que Nemotron 3 Nano et à quelles tâches est-il destiné ?
C’est le modèle « petit » de la famille (30 milliards de paramètres, activation partielle MoE) conçu pour des tâches efficaces : résumés, récupération d’informations, flux d’assistants, et support pour les systèmes multiagents à coûts maîtrisés.
Quels avantages offre une fenêtre de contexte de 1 000 000 de tokens dans un modèle ouvert ?
Elle permet de soutenir des flux longs et multiétapes (comme des agents manipulant de la documentation étendue ou de grands historiques) avec moins de découpage du contexte ou de résumés invasifs, préservant ainsi la précision.
Quand seront disponibles Nemotron 3 Super et Ultra ?
NVIDIA prévoit leur sortie pour la première moitié de 2026.
Quelles outils NVIDIA publie-t-elle pour entraîner et évaluer des agents avec Nemotron 3 ?
Outre les datasets, notamment un Dataset de sécurité pour agents, NVIDIA lance NeMo Gym, NeMo RL et NeMo Evaluator, avec une disponibilité sur GitHub et Hugging Face, et des prises en charge dans l’écosystème.