L’IA physique, moteur de la robotique moderne, des véhicules autonomes et des environnements intelligents, progresse grâce à une combinaison innovante de réseaux neuronaux, génération de données synthétiques, simulation physique, apprentissage par renforcement et modèles de raisonnement avec intelligence artificielle. NVIDIA Research, fort de près de vingt ans d’expérience dans l’intelligence artificielle et les graphismes informatiques, mène cette convergence technologique.
Lors de SIGGRAPH, le congrès mondial de référence en graphisme par ordinateur qui se tient à Vancouver jusqu’au 14 août, les chercheurs de NVIDIA ont dévoilé des innovations clés qui jettent les bases de l’IA physique et spatiale. Parmi ces avancées figurent de nouvelles bibliothèques logicielles, des améliorations de la plateforme NVIDIA Metropolis dédiée à la vision par ordinateur, ainsi que le lancement de NVIDIA Cosmos Reason et NVIDIA Nemotron, deux modèles de raisonnement conçus pour permettre aux robots et agents de vision artificielle de comprendre et d’agir avec un bon sens pratique semblable à celui des humains.
Pour développer l’IA physique, il est essentiel de créer des environnements virtuels 3D avec une fidélité et une précision physique élevées. Ces univers virtuels permettent d’entraîner en toute sécurité des robots humanoïdes et des systèmes autonomes avant leur déploiement dans le monde réel. Sans cette représentation réaliste, les compétences acquises en simulation ne se transposeraient pas correctement dans la pratique. Par exemple, un robot agricole doit appliquer une pression précise pour récolter des fruits sans les endommager, ou un robot d’assemblage de microcomposants électroniques doit intervenir avec une précision millimétrique.
Selon Ming-Yu Liu, vice-président de la recherche chez NVIDIA, « l’IA physique nécessite un environnement virtuel qui simule la réalité, une sorte d’univers parallèle où les robots peuvent apprendre par essais et erreurs ». Cela requiert un rendu en temps réel, la vision par ordinateur, la simulation de mouvements physiques, ainsi que des modèles d’IA générative 2D et 3D, et des systèmes de raisonnement.
Parmi les innovations techniques présentées à SIGGRAPH figurent :
1. ViPE (Video Pose Engine), un moteur d’annotation géométrique 3D pour vidéos, développé par le Spatial Intelligence Lab de Sanja Fidler avec le Dynamic Vision Lab et l’équipe NVIDIA Isaac, qui estime le mouvement de la caméra et génère des cartes de profondeur détaillées à partir d’enregistrements variés.
2. Une nouvelle méthode de reconstruction 3D garantissant des géométries visuellement précises mais stables physiquement, évitant par exemple que des modèles de chaises reconstruits se désagrègent lors de la simulation.
3. Le développement de données synthétiques pour des mouvements complexes, comme des acrobaties de parkour, combinant générateurs de mouvement et contrôleurs physiques, pour entraîner des robots humanoïdes à évoluer sur des terrains difficiles ou lors d’opérations de sauvetage.
4. L’utilisation de modèles de diffusion et de rendu différentiable pour ajouter automatiquement des textures réalistes – usure ou vieillissement – à des objets 3D à partir d’indications textuelles, accélérant la création d’environnements virtuels pour la simulation industrielle ou les jeux vidéo.
5. Une nouvelle approche de calcul différentiable de la visibilité, permettant de reconstruire plus rapidement et précisément des géométries 3D à partir d’images ou de vidéos, connectant le rendu direct (3D vers 2D) à la reconstruction inverse (2D vers 3D).
Ces avancées ne relèvent pas uniquement du domaine académique : elles s’inscrivent dans l’écosystème NVIDIA Cosmos, lancé cette année, qui intègre des modèles fondamentaux du monde physique, des bibliothèques d’après-formation, ainsi qu’un pipeline accélérant le traitement et l’organisation des données. La synergie entre rendu neuronal, simulation physique et modèles de raisonnement ouvre la voie à l’entraînement de robots et systèmes autonomes capables d’évoluer dans des environnements complexes, tels que les villes intelligentes ou les usines de haute précision.
Enfin, ces innovations soulignent l’importance de la simulation pour la recherche et l’industrie, en permettant de développer, tester et déployer des systèmes complexes en toute sécurité, tout en réduisant coûts et risques. NVIDIA Cosmos Reason, un modèle de langage visuel de raisonnement, vise à doter les agents et robots d’une compréhension contextuelle, leur permettant de prendre des décisions éclairées avec un bon sens pratique.
Les secteurs qui bénéficieront de ces progrès sont nombreux : robotique, automobile, fabrication avancée, urbanisme, défense et logistique.
Source : blogs.nvidia.com