Google DeepMind franchit une étape significative dans le domaine de la robotique : Gemini Robotics 1.5 et Gemini Robotics-ER 1.5, deux modèles qui collaborent de manière complémentaire pour permettre à un robot percevoir, planifier, réfléchir, utiliser des outils et agir dans des tâches physiques complexes et pluriétapes. La société présente ce lancement comme un jalon vers une intelligence artificielle générale (AGI) dans le monde physique, en mettant l’accent sur transparence, sécurité et généralisation entre différents « corps » robotiques.
C’est une approche simple à expliquer, mais difficile à réaliser : lorsqu’on demande à un robot d’organiser une lessive par couleurs ou trier des déchets selon des normes locales, il ne suffit pas de reconnaître des objets. Le robot doit comprendre le contexte, consulter des informations pertinentes (par exemple, chercher en ligne la réglementation municipale de recyclage), décomposer la tâche en étapes et les exécuter avec un contrôle de mouvement robuste. À cette fin, DeepMind introduit deux « cerveaux » qui se partagent la tâche : un planificateur délibératif et un exécuteur doté d’une réflexion interne.
Deux modèles, un agent : penser et agir en toute transparence
- Gemini Robotics-ER 1.5 (VLM) est le modèle de raisonnement incarné. Il fonctionne comme un « cerveau de haut niveau » : il planifie en langage naturel, prend des décisions logiques dans des environnements physiques, et appelle des outils de façon native (comme la recherche) pour recueillir des données externes ou invoquer des fonctions définies par l’utilisateur. De plus, il évalue le progrès et la probabilité de succès, et atteint des résultats de pointe dans une batterie de 15 benchmarks académiques de raisonnement spatial, inspirés de cas réels.
- Gemini Robotics 1.5 (VLA) est le modèle de vision-langage-action. Traduisant les instructions du planificateur en commandes moteurs, il s’appuie sur l’entrée visuelle pour exécuter chaque étape. La nouveauté essentielle : il réfléchit avant d’agir. Le modèle génère une séquence interne de raisonnement en langage naturel — un dialogue avec lui-même — qui explique son processus et améliore la résolution de tâches sémantiquement complexes. Cela offre une explicabilité : le système peut montrer comment il a abouti à chaque décision.
En résumé, ce cadre agentique (raisonner, planifier, agir avec usage d’outils) augmente la capacité de généralisation face à des tâches plus longues et des environnements diversifiés, évitant le schéma classique de « une instruction, un mouvement » des générations précédentes.
De l’exemple quotidien à la complexité : du linge à la déchetterie
DeepMind illustre cette approche avec des scénarios concrets. Si l’on demande « trie mon linge par couleurs », le planificateur comprend que le blanc va dans un conteneur et les couleurs dans un autre ; il décompose en étapes (localiser un vêtement rouge, l’approcher, le saisir, le déposer dans le bac noir) et valide l’avancement. Si la tâche est « classifie ces objets en organique, recyclage ou autres selon ma localisation », le système consulte la norme locale, identifie les objets et exécute les mouvements nécessaires pour terminer. Dans ces deux cas, le VLA « pense » à des microstratégies avant de déplacer le robot, segmentant des tâches longues en petits segments plus sûrs et plus fiables.
Transfert entre « corps » : apprendre une fois, agir dans plusieurs contextes
Une barrière classique en robotique est que chaque plateforme — avec sa cinématique, ses capteurs et ses degrés de liberté — nécessite des modèles spécifiques. DeepMind assure que Gemini Robotics 1.5 montre une capacité remarquable d’apprentissage croisé entre différentes incarnations : les compétences acquises avec un système (par exemple, le ALOHA 2 bimanuel) peuvent fonctionner sur d’autres formats comme le humanoïde Apollo ou un Franka double bras, sans ajustement spécifique. Cette transférabilité accélère l’apprentissage de nouvelles compétences et réduit les coûts de déploiement en réutilisant des politiques entre robots.
Ce qui est disponible et pour qui
- Gemini Robotics-ER 1.5: disponible dès aujourd’hui pour développeurs via l’API Gemini sur Google AI Studio. Il permet de générer des plans et séquences d’actions détaillées pour des projets robotiques, avec un « budget de réflexion » configurable qui équilibre latence et qualité.
- Gemini Robotics 1.5: le modèle d’action est réservé à partenaires sélectionnés et tests de confiance. C’est la composante qui contrôle les robots réels, et elle requiert donc des validations de sécurité et une responsabilité accrue avant une utilisation généralisée.
Ce décalage dans la disponibilité est logique : planifier est moins risqué que déplacer du matériel dans des environnements non contrôlés. Toutefois, l’ouverture du planificateur ER permet déjà à la communauté d’examiner des agents physiques avec plus de réflexion et d’explicabilité.
« Penser avant d’agir » : précision, latence et explicabilité
Le processus de réflexion intermédiaire améliore la réussite des tâches complexes, mais demande du temps. Le système introduit donc un « budget de réflexion » ajustable : plus de réflexion pour des missions longues (par exemple, préparer une valise en fonction de la météo prévue), et moins pour des actions réactives (ouvrir-fermer, saisir-relâcher). La traçabilité du raisonnement — sous forme de texte compréhensible — est essentielle pour auditer les décisions, détecter les erreurs et aligner le comportement avec les normes de sécurité et les politiques de dialogue.
Sécurité et responsabilités : SALOMON et contrôles multicouches
DeepMind accompagne cette annonce avec des progrès en sécurité sémantique et en alignement. Le développement a été supervisé par des équipes internes de responsabilité et par un Conseil de Sécurité, et le benchmark ASIMOV est mis à jour pour évaluer la compréhension de la sécurité et l’adhésion aux restrictions physiques, avec une meilleure couverture des cas rares, de nouvelles questions et modalités vidéo. Sur ces évaluations, Gemini Robotics-ER 1.5 affiche des performances de pointe, et sa capacité à « penser » contribue à mieux appréhender les risques et à respecter davantage les limites de sécurité.
En opération, Gemini Robotics 1.5 intègre une sécurité holistique multicouche : il refléchit sur la sécurité avant d’agir au niveau sémantique, alignant la conversation avec les politiques existantes et déclenchant des sous-systèmes de bas niveau (par ex., éviter les collisions) à bord quand c’est nécessaire. La philosophie : prévenir à un niveau élevé, atténuer à un niveau plus bas.
Ce que cela change pour la communauté robotique
- Architecture agentique claire : planificateur délibératif + exécuteur avec réflexion interne, tous deux multimodaux et basés sur la famille Gemini.
- Généralisation : une robustesse accrue pour des tâches longues et environnements variés ; transfert entre plateformes sans tuning spécifique.
- Outils natifs : l’ER invoque des recherches et fonctions externes pour élargir l’espace d’action sans nécessiter de nouveau entraînement.
- Gouvernance : pensée lisible en langage naturel qui facilite les audits, validation et, éventuellement, certification pour l’usage dans des environnements sensibles.
Une étape… mais avec des bases solides
Le discours est ambitieux — agents physiques généralistes —, mais l’équipe et la communauté partagent deux constats :
- Progrès tangible en raisonnement physique, planification et explicabilité, avec améliorations dans le transfert entre robots.
- Défis ouverts en précision fine, robustesse hors laboratoire, sécurité opérationnelle et apprentissage avec peu d’exemples dans des environnements chaotiques.
En d’autres termes : il n’y aura pas demain des robots domestiques pliant et rangeant le linge ; mais l’intérêt croît là où la planification pluriétape, la compréhension spatiale et la transparence du processus font la différence : logistique légère, laboratoire, santé, manufacture flexible ou services avec interaction structurée.
Commencer aujourd’hui en toute sécurité
Les developpeurs en robotique peuvent débuter avec Gemini Robotics-ER 1.5 : envoyer des images de l’environnement, demander des plans étape par étape, ajuster le budget de réflexion. La meilleure pratique consiste à insérer un interprète qui vérifie les actions avant exécution, à simuler dans un jumeau numérique, et à mesurer tout le processus (latences p95/p99, jitter, taux de réussite par sous-étape). Une fois que le modèle d’action sera largement accessible, ces principes — accompagnés des verrous de sécurité — constitueront la base d’une opération responsable.
Une avancée dans la course aux agents physiques
Les universités et les entreprises rivalisent pour créer l’agent combinant perception, langage et contrôle. La proposition de DeepMind s’appuie sur la maturité multimodale de Gemini et la spécialisation par données pour le monde physique. La limite du système dépendra de la qualité et de la diversité des données multi-robot, des métriques de sécurité réalistes, et des coûts matériels suffisants pour faire évoluer au-delà des démonstrations.
Un pas vers l’AGI… avec une traçabilité certaine
L’équipe en encadre Gemini Robotics 1.5 comme une étape fondatrice vers des robots capables de raisonner et généraliser dans des environnements complexes. La différence ne réside pas seulement dans l’amélioration des performances, mais aussi dans la meilleure capacité à expliquer : montrer le raisonnement avant de faire bouger le bras. Pour un secteur qui doit certifier ses comportements et rendre des comptes en termes de risques, cette traçabilité peut être aussi importante que la précision.
Questions fréquentes
Qu’est-ce que Gemini Robotics-ER 1.5 et à quoi sert-il en robotique ?
C’est le modèle de raisonnement incarné qui planifie en langage naturel, appel des outils (comme la recherche) et orchestre la mission en étapes. Il aide à ce qu’un robot comprenne le contexte, évalue le progrès, et choisisse des stratégies avant d’agir.
En quoi Gemini Robotics 1.5 diffère-t-il d’un VLA classique ?
Il s’agit d’un VLA qui « pense avant d’agir » : il génère des raisonnements internes lisibles qui expliquent comment il aborde chaque sous-étape, segmente les tâches longues, et utilise la vision pour guider le mouvement. Cette explicabilité renforce la robustesse et facilite les audits.
Puis-je utiliser ces modèles dès aujourd’hui dans un projet ?
Le planificateur Gemini Robotics-ER 1.5 est disponible via une API pour les développeurs. Le modèle d’action Gemini Robotics 1.5 est réservé à des partenaires sélectionnés et tests de confiance. La démarche pratique consiste à prototyper avec l’ER et à valider en simulation avant d’engager un robot réel.
Quels progrès en sécurité et comment sont évalués ?
DeepMind a mis à jour le benchmark ASIMOV pour évaluer la sécurité sémantique et physique. Le ER affiche des performances de pointe. De plus, le VLA intègre un raisonnement sécurité de haut niveau et des systèmes de protection embarqués (par ex., éviter les collisions).
Le système peut-il apprendre sur un robot et exécuter sur un autre ?
Oui : la transfertabilité est démontrée entre différentes incarnations (par ex., de ALOHA 2 à Apollo ou à un Franka bimanuel) sans tuning spécifique, accélérant l’apprentissage et réduisant les coûts de déploiement.