NVIDIA et Mistral AI s’allient pour amener les modèles ouverts Mistral 3 à l’ère de « l’intelligence distribuée »

NVIDIA et Mistral AI s'allient pour amener les modèles ouverts Mistral 3 à l'ère de « l'intelligence distribuée »

La course à l’intelligence artificielle ouverte franchit une étape significative avec l’annonce conjointe de NVIDIA et de la société française Mistral AI. Les deux entreprises ont présenté la nouvelle famille de modèles Mistral 3, une série de modèles multilingues et multimodaux en open source, optimisés de bout en bout pour l’infrastructure de NVIDIA, allant des supercalculateurs équipés de GB200 NVL72 aux PC avec GPU RTX, en passant par les dispositifs Jetson à la périphérie du réseau.

Au centre de cette annonce se trouve Mistral Large 3, un modèle mixture-of-experts (MoE) qui marie efficacité et puissance : au lieu d’activer toutes les neurones pour chaque token, il n’engage que les « experts » pertinents, réduisant ainsi la charge computationnelle tout en conservant des performances élevées. L’objectif est clair : rendre l’IA d’entreprise à grande échelle non seulement accessible, mais aussi économiquement viable.


Mistral Large 3 : 675 milliards de paramètres conçus pour Blackwell

Selon les données techniques publiées, Mistral Large 3 est un modèle sparse, doté de 675 milliards de paramètres au total. Lors de chaque inférence, seulement 41 milliards sont actifs, avec une fenêtre de contexte de 256 000 tokens, destiné à des agents de haut niveau de raisonnement, à l’analyse approfondie de documents et à des flux multimodaux complexes.

Ce modèle est entraîné sur des GPU NVIDIA Hopper et a été spécifiquement optimisé pour la nouvelle architecture Blackwell, notamment pour les systèmes GB200 NVL72, intégrant 72 GPU de dernière génération en un seul système bénéficiant d’une interconnexion NVLink haute vitesse.

NVIDIA garantit qu’avec cette combinaison de matériel et ces optimisations logicielles, Mistral Large 3 offre jusqu’à 10 fois plus de performance d’inférence comparé à la génération précédente, H200. Il dépasse les 5 millions de tokens par seconde et par mégawatt, permettant d’atteindre environ 40 tokens par seconde par utilisateur. Concrètement, cela se traduit par une meilleure expérience utilisateur, un coût réduit par token et une efficacité énergétique accrue, un aspect crucial à mesure que ces modèles d’IA consomment de plus en plus d’énergie dans les centres de données mondiaux.

Ce progrès s’appuie sur plusieurs composants du stack de NVIDIA :

  • Wide Expert Parallelism dans TensorRT-LLM, permettant de répartir et équilibrer dynamiquement les experts du modèle à travers la mémoire cohérente du NVL72.
  • NVFP4, un format de faible précision spécifique à Blackwell, qui réduit le calcul et la mémoire tout en conservant la précision nécessaire pour la production.
  • NVIDIA Dynamo, une plateforme d’inférence distribuée à faible latence, qui découple les phases de pré-remplissage et de décodage, pour optimiser les charges de travail à contexte long.

Ministral 3 : modèles compacts pour PC RTX, ordinateurs portables et dispositifs Jetson

La stratégie de Mistral et NVIDIA ne se limite pas au segment frontier. En parallèle du modèle massif, la société française a lancé la suite Ministral 3, composée de modèles denses à haute performance avec 3, 8 et 14 milliards de paramètres, disponibles en variantes Base, Instruct et Reasoning (un total de neuf modèles).

Ces modèles ont été conçus pour fonctionner dans des environnements plus modestes mais de plus en plus pertinents :

  • PCs et laptops équipés de GPU GeForce RTX AI PC
  • Stations NVIDIA DGX Spark
  • Dispositifs embarqués NVIDIA Jetson, destinés à la robotique, au edge computing et à l’IoT

NVIDIA a collaboré avec des projets populaires tels que Llama.cpp et Ollama pour permettre aux développeurs et enthousiastes de tester Ministral 3 en local, avec une faible latence et une meilleure confidentialité des données. Sur des GPU de dernière génération — comme la RTX 5090 —, des performances de plusieurs centaines de tokens par seconde sont annoncées pour les plus petits modèles, faisant de ces modèles des candidats idéaux pour des assistants locaux, des agents à la périphérie (edge) et des applications déconnectées.


Un écosystème ouvert : licence Apache 2.0, NeMo et NIM

Une des clés de cette annonce réside dans l’accent mis sur l’ouverture. La famille Mistral 3 est publiée sous licence Apache 2.0 avec des poids en open source, permettant aux entreprises et aux chercheurs de télécharger, d’affiner et de déployer ces modèles dans leurs propres environnements, sans les restrictions que subissent de nombreux modèles propriétaires.

Ces modèles s’intégrent également aux outils open source de NVIDIA NeMo pour la gestion du cycle de vie des agents IA —Data Designer, Customizer, Guardrails et NeMo Agent Toolkit—, permettant aux organisations de :

  • Curater et préparer leurs données
  • Affiner les modèles pour des cas d’usage spécifiques
  • Appliquer des politiques de sécurité et de filtrage (guardrails)
  • Orchestrer des agents complexes basés sur Mistral 3

Pour faciliter le déploiement, NVIDIA a optimisé des cadres d’inférence tels que TensorRT-LLM, vLLM et SGLang pour toute la famille Mistral 3, avec l’annonce que ces modèles seront disponibles sous forme de microservices NVIDIA NIM, déployables sur toute infrastructure équipée de GPU.


Ce que cela signifie pour les entreprises et les développeurs

La combinaison d’un modèle géant de type MoE dans le centre de données et de modèles compacts Ministral 3 à la périphérie renforce l’idée d’“intelligence distribuée” que Mistral AI met en avant. Les organisations peuvent envisager des architectures où :

  • Les agents complexes de haut niveau de raisonnement s’exécutent sur des clusters GB200 NVL72, gérant des charges lourdes d’analyse, de planification ou de génération multimodale.
  • Les clients, succursales, usines ou véhicules exécutent des versions Ministral 3 sur des PCs RTX ou des plates-formes Jetson, conservant une partie de la logique en local et limitant la dépendance au cloud.

Présentés comme des modèles ouverts et distribués sous licences permissives, ces développements représentent également une étape supplémentaire vers la démocratisation des technologies d’IA de niveau “frontier” en Europe comme à l’échelle mondiale, dans un contexte où la souveraineté numérique, la lutte contre la dépendance énergétique et la réduction de la dépendance à des fournisseurs fermés sont des enjeux cruciaux.


Questions fréquentes sur Mistral 3 et la collaboration avec NVIDIA

Qu’est-ce exactement que la famille de modèles Mistral 3 ?
Mistral 3 constitue une nouvelle génération de modèles d’intelligence artificielle multilingues et ouverts, combinant un modèle massif mixture-of-experts (Mistral Large 3, avec 675 milliards de paramètres) et une suite de modèles plus petits mais performants appelée Ministral 3 (3B, 8B, 14B). Tous sont optimisés pour fonctionner sur la plateforme hardware de NVIDIA, du GB200 NVL72 dans les centres de données jusqu’aux GPU RTX et Jetson à la périphérie.

En quoi Mistral Large 3 se distingue-t-il des autres grands modèles de langage ?
Sa principale particularité réside dans son architecture MoE et son optimisation pour Blackwell. En n’activant qu’un sous-ensemble d’experts par token, il limite le coût computationnel tout en garantissant une haute précision. Sur les systèmes GB200 NVL72, il peut atteindre jusqu’à 10 fois plus de performance que la génération précédente, H200. De plus, sa fenêtre de contexte de 256 000 tokens lui permet de traiter des documents et des sessions de grande taille sans fragmentation.

Quel matériel faut-il pour exécuter Ministral 3 localement ?
Les modèles Ministral 3 sont conçus pour fonctionner sur des GPU grand public et embarqués de NVIDIA, tels que les cartes GeForce RTX pour PC et ordinateurs portables, les stations DGX Spark ou encore les dispositifs Jetson pour l’edge computing. Grâce à leur intégration avec Llama.cpp et Ollama, il est possible de déployer ces modèles sur des desktops modernes, à condition de disposer d’une mémoire vidéo suffisante pour la taille du modèle choisi.

Les entreprises peuvent-elles fine-tuner et déployer ces modèles dans leurs centres de données ?
Absolument. La famille Mistral 3 est publiée sous licence Apache 2.0 avec des poids open source, permettant aux organisations de télécharger, d’affiner leurs modèles avec leurs données spécifiques et de les déployer sur des clusters GPU NVIDIA — y compris H100, H200, GB200 ou autres — en utilisant des frameworks comme TensorRT-LLM, vLLM ou SGLang. NVIDIA met également à disposition des microservices NIM pour simplifier le déploiement dans des environnements hybrides ou multi-cloud.

Source : blogs NVIDIA

le dernier