
DiffusionGemma : Google DeepMind propose la génération de texte par blocs, NVIDIA l’accélère en local
Google DeepMind a lancé DiffusionGemma, un modèle expérimental ouvert qui remet en cause l’un des fondements des grands modèles de langage : la génération séquentielle de texte. Contrairement à la majorité des LLM actuels, qui produisent chaque réponse token par token, DiffusionGemma traite des blocs entiers et peut affiner jusqu’à 256 tokens simultanément. NVIDIA a optimisé le modèle pour les GPU GeForce RTX, les stations RTX PRO et les systèmes DGX Spark, avec l’objectif d’accélérer l’IA locale sur des équipements personnels et professionnels. Ce n’est pas seulement une question de taille de modèle. L’IA générative cherche aussi des architectures plus rapides, plus efficaces et plus proches de l’utilisateur. Une exécution locale réduit la latence, protège la confidentialité, évite les coûts




