NVIDIA accélère l’IA « physique » avec des mondes synthétiques : Cosmos 2.5 unifie Text2World, Image2World et Video2World pour robots, véhicules et drones

NVIDIA accélère l'IA "physique" avec des mondes synthétiques : Cosmos 2.5 unifie Text2World, Image2World et Video2World pour robots, véhicules et drones

Former l’entraînement d’une intelligence artificielle agissant dans le monde réel — robots, véhicules autonomes, drones — exige des données variées, précises et fiables. Les obtenir uniquement dans des environnements réels est coûteux, lente et parfois dangereux. NVIDIA a mis à jour ses Open World Foundation Models (WFMs) pour combler cette lacune : Cosmos Predict 2,5 et Cosmos Transfer 2,5 s’intègrent avec Omniverse et l’écosystème Isaac pour générer des données synthétiques physiquement plausibles à grande échelle et accélérer la transition du simulation au monde réel.

Cette mise à jour repose sur deux idées principales : unifier la génération de mondes et les faire varier à volonté (climat, lumière, terrain) avec des contrôles précis et une cohérence multicaméra. L’objectif est de tester et valider des modèles d’IA physique avec une couverture de scénarios qui serait impossible à recueillir dans la rue, en usine ou sur le terrain.

Ce que apportent Cosmos Predict 2,5 et Cosmos Transfer 2,5

  • Cosmos Predict 2,5 : combine dans une architecture légère les modèles Text2World, Image2World et Video2World. À partir d’un prompt, d’une image ou d’une vidéo, le système génère des mondes vidéo cohérents et contrôlables, avec des sorties multicaméra cohérentes. Cela permet, par exemple, de synthétiser une scène routière ou d’entrepôt avec multiples vues et trajectoires pour alimenter des pipelines de perception et de planification.
  • Cosmos Transfer 2,5 : permet un transfert de style spatial de monde à monde avec fidélité élevée pour multiplier la variabilité des datasets : climat, lumière ou terrain varient de façon cohérente dans toutes les caméras. De plus, le modèle est 3,5 fois plus petit que son prédécesseur, plus rapide et avec un alignement au prompt et une physique mieux adaptés.

Ces WFMs s’intègrent dans des pipelines de données synthétiques basés sur NVIDIA Omniverse et Isaac Sim — la plateforme open source de simulation robotique de NVIDIA —, permettant de réduire le gap sim-to-real avec des vidéos photoréalistes et des annotations cohérentes.

Le pipeline de données synthétiques : du smartphone au monde entraînable

NVIDIA propose un processus en quatre étapes pour construire des données synthétiques réellement utiles :

  1. Omniverse NuRec : bibliothèques de reconstruction neuronale pour créer un jumeau numérique en OpenUSD à partir de captures avec un smartphone (scènes réelles converties en environnements navigables).
  2. Assets SimReady : peupler le jumeau avec des modèles 3D physiquement précis (matériaux, masses, frictions) prêts pour la simulation.
  3. Isaac Sim (MobilityGen) : générer des données (trajectoires, capteurs, perturbations) à grande échelle, avec contrôle sur capteurs (RGB, LiDAR, profondeur) et cinématique.
  4. NVIDIA Cosmos : élargir ce qui est généré avec des variations plausibles de climat, lumière et terrain appliquées de façon cohérente spatialement et multicaméra.

Le résultat : millions d’échantillons synthétiques contrôlés, avec des étiquettes parfaites (segmentation, profondeur, poses) et une diversité dirigée, complétant — et non remplaçant — les données réelles.

Cas concrets : de “cerveau robot” aux livraisons autonomes

  • Skild AI utilise Cosmos Transfer pour élargir ses données avec de nouvelles variations et valider ses politiques robotiques entraînées en Isaac Lab. Leur approche “simulation-first” accélère la généralisation des cerveaux de robots à travers différents corps et tâches.
  • Serve Robotics combine Isaac Sim et données terrains dans l’une des flottes autonomes les plus importantes en espace public : plus de 100 000 livraisons du dernier kilomètre et 1 000 000 de miles parcourus chaque mois, avec environ 170 milliards d’échantillons image-LiDAR pour réentraîner leurs modèles. La société a aussi montré comment ses robots peuvent livrer du matériel informatique : elle a distribué un NVIDIA DGX Spark1 petaFLOP d’IA personnelle — à des créateurs comme Refik Anadol, will.i.am et Ollama.
  • Zipline, spécialiste des drones de livraison autonomes, a reçu un DGX Spark par drone et utilise NVIDIA Jetson comme plateforme d’edge AI dans ses systèmes de vol.
  • Lightwheel aide ses clients à combler le gap sim-to-real avec SimReady et de vastes datasets synthétiques basés sur OpenUSD, couvrant de la production en usine à la consommation domestique.
  • Dans le secteur minier, le data scientist Santiago Villa utilise Omniverse avec Blender pour générer des datasets capables de détecter de grosses roches bloquant les broyeuses. Chaque incident peut ralentir la mine de environ 7 minutes et coûter jusqu’à 650 000 dollars par an en perte de production ; les données synthétiques réduisent les coûts d’entraînement et améliorent la détection.
  • FS Studio a créé des mille variations photoréalistes de colis avec Omniverse Replicator pour un leader de la logistique, augmentant la précision de détection et réduisant les faux positifs, avec un impact direct sur le débit.
  • Robots for Humanity a monté un environnement intégré dans Isaac Sim pour un client du secteur pétrole & gaz, générant des données RGB, profondeur et segmentation, tout en capturant la télémétrie du robot Unitree G1 via téléopération.
  • L’ambassadeur d’Omniverse, Scott Dempsey, synthétise des câbles à partir de spécifications fabricants et génère des datasets avec Isaac Sim, enrichis par Cosmos Transfer pour entraîner des systèmes d’identification et manipulation de câbles.

Pourquoi les données synthétiques sont importantes en “IA physique”

Les LLM prospèrent sur internet car l’abondance de textes est immense. L’IA physique, en revanche, a besoin d’expériences : collisions, occlusions, reflets, pluie sur le LiDAR, bruits thermiques… ainsi que de fautes rares. Attendre qu’elles se produisent dans la vraie vie ou les provoquer est impraticable. Grâce à des données synthétiques physiquement plausibles, les équipes peuvent :

  • Couvrir des scénarios rares (quasi-accidents, conditions extrêmes) sans danger pour personne.
  • Contrôler la distribution (nombres de nuits, pluie, occlusions) pour un entraînement avec équilibre et robustesse.
  • Obtenir des étiquettes parfaites (segmentation, profondeur, normales) difficiles ou coûteuses à annoter en environnement réel.
  • Itérer rapidement : en cas d’échec du modèle, générer davantage du cas problématique et réentraîner.

Le secret réside dans la plausibilité physique et optique des mondes synthétiques, ainsi que dans le fait que le pipeline conserve la cohérence entre vues et capteurs. C’est là que Omniverse, OpenUSD, Isaac et Cosmos se complètent.

OpenUSD + Omniverse : le langage commun en 3D industriel

L’utilisation d’OpenUSD (standard promu par AOUSD) comme format de scène permet aux jumeaux numériques, actifs SimReady et données synthétiques de circuler entre outils et équipes sans friction. Omniverse sert de plateforme pour construire, simuler et rendre ces mondes avec une physique et éclairage cohérents, tandis que Isaac Sim ajoute la couche robotique (capteurs, contrôle, ROS 2, téléopération).

Commencer dès aujourd’hui : parcours d’apprentissage et ressources

Les développeurs et équipes peuvent débuter avec :

  • La formation “Getting Started with Isaac Sim” (simulation robotique, ROS 2, génération de données).
  • Le workflow de référence pour données synthétiques avec Omniverse.
  • Le Cosmos Cookbook (recettes techniques, exemples détaillés).
  • Des guides pour capturer des scènes avec un iPhone et les reconstruire dans Isaac Sim.
  • Des playlists YouTube avec des tutoriels sur Replicator et Omniverse.
  • NVIDIA Brev pour accéder à des environnements GPU préconfigurés et des lancer orientés IA physique.

De la démo à la production : lecture technique

Passer du laboratoire à l’opération réelle demande des métriques : taux de collision, écart de trajectoire, temps de planification, faux positifs/négatifs en perception, MTBF sur le terrain. La contribution de Cosmos 2,5 — cohérence multicaméra, variations physiques sur mesure et efficacité — vise à surveiller ces métriques via des expériences contrôlées et des datasets reproductibles. Si la mise en service en environnement naturel confirme l’amélioration, le processus devient une boucle continue : simulation → données synthétiques → entraînement → validation sur le terrain → retour à la simulation pour cas plus complexes.


Questions fréquentes

En quoi l’“IA physique” diffère-t-elle de l’IA générative de texte ou d’image ?
L’IA physique doit percevoir, raisonner et agir en temps réel dans des environnements dynamiques : un robot, une voiture ou un drone qui interagit avec le monde. Elle nécessite des données liées à la réalité (physique, capteurs, éclairage), pas seulement des modèles statistiques issus d’internet.

Pourquoi utiliser des données synthétiques si je dispose déjà d’enregistrements réels de mes robots ?
Parce que les données réelles ne couvrent pas tous les cas et n’étiquettent pas tout ce qui est important (profondeur, segmentation précise). Avec des données synthétiques, vous contrôlez la distribution, simulez des scénarios rares sans risque, et obtenez des étiquettes parfaites pour accélérer l’entraînement et la validation.

Quel rôle jouent OpenUSD/Omniverse par rapport à d’autres moteurs ?
OpenUSD offre un format interopérable pour des scènes complexes ; Omniverse fournit un rendu photoréaliste, une physique et une composition à l’échelle industrielle, tout en s’intégrant à Isaac et Cosmos pour boucler la boucle simulation → données → modèle.

Comment Cosmos Predict et Transfer garantissent-ils la cohérence entre caméras et capteurs ?
Predict 2,5 génère des mondes multicaméra cohérents depuis une entrée (texte, image, vidéo). Transfer 2,5 applique des styles/conditions (climat, lumière, terrain) de façon spatiale contrôlée et synchronisée entre les vues, en préservant la géométrie et la physique de la scène.

Le donnée synthétique remplacera-t-elle la donnée réelle ?
Pas entièrement. Le meilleur rendement arrive quand on combine : syntétique pour couverture et étiquetage parfait, réel pour ancrer la distribution et valider avant déploiement.


Note : Cet article s’appuie sur les informations techniques et exemples de NVIDIA concernant Cosmos 2,5, Omniverse et Isaac Sim, ainsi que sur des cas réels d’adoption en robotique et logistique.

source : blogs.nvidia

le dernier