DiffusionGemma : Google DeepMind propose la génération de texte par blocs, NVIDIA l’accélère en local

Maria Lafaye D.

X (Twitter) Facebook Pinterest LinkedIn Email

Google DeepMind a lancé DiffusionGemma, un modèle expérimental ouvert qui remet en cause l’un des fondements des grands modèles de langage : la génération séquentielle de texte. Contrairement à la majorité des LLM actuels, qui produisent chaque réponse token par token, DiffusionGemma traite des blocs entiers et peut affiner jusqu’à 256 tokens simultanément. NVIDIA a optimisé le modèle pour les GPU GeForce RTX, les stations RTX PRO et les systèmes DGX Spark, avec l’objectif d’accélérer l’IA locale sur des équipements personnels et professionnels.

Ce n’est pas seulement une question de taille de modèle. L’IA générative cherche aussi des architectures plus rapides, plus efficaces et plus proches de l’utilisateur. Une exécution locale réduit la latence, protège la confidentialité, évite les coûts de tokens API et libère les développeurs de la dépendance permanente au cloud.

De la génération token par token à la production par blocs

La plupart des LLM actuels sont autorégressifs : ils génèrent chaque token en fonction du précédent, ce qui limite la vitesse. C’est pour ça que les interfaces IA donnent l’impression d’être « tapées en direct ».

DiffusionGemma prend une autre voie. Inspiré des modèles de diffusion utilisés en génération d’image, il part d’une représentation bruitée qu’il affine jusqu’à obtenir un texte cohérent. Au lieu d’attendre chaque token, le modèle traite des blocs de jusqu’à 256 tokens en parallèle. L’objectif n’est pas seulement d’accélérer la sortie, mais de changer la nature de la charge computationnelle.

NVIDIA l’explique techniquement : la génération autorégressive est souvent limitée par la mémoire, car le modèle passe beaucoup de temps à manipuler des données. La diffusion par blocs déplace davantage de travail vers le calcul parallèle, domaine où les GPU modernes excellent. Les Tensor Cores et l’écosystème CUDA s’y prêtent naturellement.

DiffusionGemma repose sur Gemma 4, une architecture mixture-of-experts de 26 milliards de paramètres, dont 3,8 milliards activés à chaque étape. Google DeepMind y ajoute une tête de diffusion pour la génération par blocs. Le modèle reste expérimental, mais il ouvre une voie concrète vers des LLM à faible latence en usage individuel.

Caractéristique	DiffusionGemma
Laboratoire	Google DeepMind
Architecture de base	Gemma 4
Taille totale	26 milliards de paramètres
Paramètres actifs par étape	3,8 milliards
Type de génération	Diffusion par blocs
Tokens par étape	Jusqu’à 256
Licence	Apache 2.0
Support initial	Hugging Face Transformers, vLLM, Unsloth
Déploiement	Local, station de travail, DGX Spark, cloud

NVIDIA accélère l’IA locale à faible latence

L’optimisation de NVIDIA vise à faire de DiffusionGemma un outil pratique pour la génération rapide de texte en local. La société annonce jusqu’à 1 000 tokens par seconde sur un GPU H100 Tensor Core, 800 tokens/sec sur une station DGX, et 150 tokens/sec sur DGX Spark. En monoposte, NVIDIA évoque une amélioration jusqu’à 4 fois par rapport à un modèle autorégressif équivalent.

Ces chiffres viennent du contexte de l’annonce et des environnements de test. La direction est là : faire de l’IA locale une réponse suffisamment rapide pour les agents, assistants, programmation et flux interactifs. Dans ces usages, la latence est décisive. Les assistants IA de code sont déjà au cœur des flux de développement, et leur vitesse conditionne directement la productivité des équipes.

DiffusionGemma tourne sur machines GeForce RTX via Hugging Face Transformers, avec un support llama.cpp annoncé. Pour des charges plus exigeantes, vLLM est disponible dès le premier jour. Pour l’adaptation à des tâches spécifiques, le fine-tuning est possible avec Unsloth et NVIDIA NeMo.

Plateforme	Approche annoncée
NVIDIA H100	Jusqu’à 1 000 tokens/sec
DGX Station	Jusqu’à 800 tokens/sec et 748 Go de mémoire cohérente
DGX Spark	150 tokens/sec et 128 Go de mémoire unifiée
RTX PRO 6000	Flux professionnels, génération locale à faible latence
GeForce RTX	Exécution locale pour développeurs et utilisateurs avancés
Hugging Face Transformers	Tests et prototypage dès le premier jour
vLLM	Service d’inférence haute performance
Unsloth + NeMo	Fine-tuning et adaptation à des domaines spécifiques

Le rôle du DGX Spark mérite attention. NVIDIA le présente comme un super-ordinateur personnel IA basé sur le GB10 Grace Blackwell Superchip et 128 Go de mémoire unifiée. Il cible les équipes qui veulent prototyper, fine-tuner et exécuter des agents locaux sans dépendre d’un cluster distant pour chaque expérimentation.

Ce que la diffusion apporte face aux modèles traditionnels

La promesse principale de DiffusionGemma, c’est la vitesse percçue. Un assistant qui génère des blocs complets avec une faible latence donne l’impression d’un outil immédiat plutôt que d’une conversation lente. C’est utile là où l’utilisateur itère en permanence : code, documentation, brouillons, logs, agents.

La valeur est aussi dans les flux agentiques. Un agent IA lit le contexte, décide d’une action, consulte des outils, analyse des résultats. Si chaque étape est trop lente, le système entier devient lourd. Réduire la latence de génération améliore l’expérience et augmente le nombre de cycles de raisonnement en un temps donné. Les déploiements industriels d’agents IA exigent précisément cette rapidité d’exécution.

Cela dit, le modèle devra faire ses preuves sur des tâches concrètes. Générer du texte vite ne suffit pas si les réponses manquent de précision ou de cohérence. Les modèles autorégressifs, affinés depuis des années, restent la référence pour le raisonnement, la programmation et l’analyse. DiffusionGemma ouvre une alternative, mais ne les remplace pas immédiatement.

La licence Apache 2.0 est un atout réel. Elle facilite les tests, l’intégration dans des produits, la recherche et le déploiement sans les restrictions des modèles fermés. Dans un marché où la dépendance aux API propriétaires est de plus en plus questionnée, cette liberté compte.

L’IA locale face au cloud : un mouvement qui s’installe

Les grands modèles continueront à opérer dans les data centers pour des tâches exigeant une puissance de calcul massive. Mais tout n’a pas besoin d’être dans le cloud. Assistants personnels, modèles spécialisés, agents de développement, génération rapide de texte, analyse privée ou prototypage peuvent tirer profit de l’exécution locale.

L’avantage n’est pas seulement technique. L’IA locale protège les données sensibles, élimine la latence réseau, maîtrise les coûts variables et permet de travailler hors ligne dans certains contextes. Pour les entreprises avec des exigences de confidentialité ou de souveraineté, c’est un argument concret. Pour les développeurs, c’est plus de liberté pour expérimenter sans dépendre d’API externes.

NVIDIA a un intérêt évident à pousser cette tendance. Son parc de GPU RTX déjà massif fait de nombreux utilisateurs des exécutants potentiels de modèles en local. Si l’écosystème de modèles ouverts continue à progresser, les GPU grand public peuvent devenir une plateforme naturelle pour une IA personnalisée et décentralisée.

Google DeepMind gagne en présence dans le monde des modèles ouverts avec une architecture différente et une approche expérimentale. Gemma constituait déjà une option dans cet espace. DiffusionGemma propose une variante orientée vers la vitesse et la génération parallèle.

Une étape dans la diversification des architectures IA

L’IA générative ne se résume plus à la course à la taille. Plusieurs directions émergent simultanément : modèles plus petits et spécialisés, mixture-of-experts, multimodalité, raisonnement, agents, inférence locale, quantification, diffusion de texte et accélération hardware spécifique.

DiffusionGemma s’insère dans cette diversification. Son but n’est pas de répondre à tous les cas d’usage, mais d’ouvrir une voie pour des applications où la vitesse de réponse prime. Si la qualité est au rendez-vous, les modèles de diffusion pourraient occuper un espace propre à côté des autorégressifs.

La prochaine étape de l’IA ne dépendra pas uniquement de plus de data centers et de GPU dans le cloud. Elle passera aussi par des modèles utiles sur le poste de travail, dans la station et en hardware local. La combinaison de poids ouverts, faible latence et accélération sur GPU grand public pourrait devenir une voie majeure pour un usage plus large de l’IA, hors des grandes plateformes centralisées.

Google DeepMind fournit le modèle, NVIDIA l’accélération et l’écosystème d’exécution. Une expérimentation à suivre, car elle pose une vraie question : quelle part de l’IA future vivra dans le cloud, et laquelle fonctionnera directement sur l’ordinateur de l’utilisateur ?

FAQ : DiffusionGemma et NVIDIA

Qu’est-ce que DiffusionGemma ?

DiffusionGemma est un modèle expérimental ouvert de Google DeepMind qui génère du texte via diffusion, en affinant des blocs jusqu’à 256 tokens en parallèle, sous licence Apache 2.0.

Pourquoi NVIDIA l’a-t-elle optimisé ?

Son architecture profite pleinement du calcul parallèle des GPU. NVIDIA accélère son exécution sur GeForce RTX, RTX PRO, DGX Spark, DGX Station et GPU de data center.

Quels avantages par rapport à un modèle autorégressif ?

DiffusionGemma réduit la latence en générant du texte par blocs plutôt que token par token. Selon NVIDIA, il peut être jusqu’à quatre fois plus rapide dans certains scénarios monoposte.

Quel est l’intérêt de l’exécuter en local ?

L’exécution locale offre moins de latence, plus de confidentialité, une maîtrise des coûts et la possibilité de prototyper sans dépendre d’une API cloud.

X (Twitter) Facebook Pinterest LinkedIn Email

Maria Lafaye D.

Journaliste spécialisé dans les technologies, le cloud et l'intelligence artificielle, qui rédige en français à l'aide de l'IA pour des médias tels que Actualité Cloud.