NVIDIA a présenté Fugatto, un modèle innovant d’Intelligence Artificielle (IA) conçu pour transformer et générer des sons d’une manière inédite. Considéré comme le « couteau suisse du son », ce système permet aux utilisateurs de contrôler l’audio par des descriptions textuelles, ouvrant un éventail de possibilités dans les domaines de la musique, du cinéma, de l’éducation et des jeux vidéo.
Une nouvelle ère dans la création de son
Contrairement à d’autres modèles d’IA axés sur la composition musicale ou la modification des voix, Fugatto se distingue par sa polyvalence et sa précision. Baptisé Foundational Generative Audio Transformer Opus 1, il est capable de générer des mélanges de musique, de voix et de sons à partir de descriptions textuelles et de fichiers audio. Parmi ses fonctionnalités remarquables figurent la capacité de créer des mélodies à partir de rien, d’ajouter ou de retirer des instruments dans une chanson existante, de modifier l’accent ou l’émotion d’une voix et même de générer des sons complètement nouveaux.
Ido Zmishlany, producteur de musique multi-platine et cofondateur de One Take Audio — une entreprise du programme NVIDIA Inception pour les startups innovantes —, a décrit le modèle comme « incroyable ». « La possibilité de créer des sons complètement nouveaux en studio est révolutionnaire. Cela marque un nouveau chapitre dans l’histoire de la musique », a-t-il affirmé.
Potentiel dans plusieurs secteurs
Fugatto n’est pas seulement un outil pour les musiciens. Parmi les cas d’utilisation notables figurent :
- Production musicale : Les compositeurs peuvent prototyper des chansons, essayer différents styles et instruments et améliorer la qualité audio de pistes existantes.
- Publicité : Les agences peuvent personnaliser des campagnes en adaptant les voix avec différents accents et émotions pour des audiences spécifiques.
- Éducation : Les outils d’apprentissage des langues peuvent utiliser des voix personnalisées, comme celles de proches ou d’amis.
- Jeux vidéo : Les développeurs peuvent modifier des sons préenregistrés ou générer de nouveaux effets sonores en temps réel en fonction des actions du joueur.
Technologie derrière l’avancement
Fugatto utilise 2,5 milliards de paramètres et a été entraîné sur des systèmes NVIDIA DGX avec 32 GPUs NVIDIA H100 Tensor Core. Sa capacité à combiner les instructions de manière créative — comme générer une voix avec un accent français et un ton mélancolique — est rendue possible grâce à des techniques telles que ComposableART. De plus, il peut interpoler des sons dans le temps, permettant la création de paysages sonores dynamiques, comme des tempêtes qui se dissipent dans des aurores pleines de chants d’oiseaux.
Le modèle se distingue également par sa capacité à réaliser des tâches pour lesquelles il n’a pas été spécifiquement entraîné, comme générer des voix chantées de haute qualité à partir de simples descriptions textuelles.
Une collaboration mondiale
Le développement de Fugatto, dirigé par une équipe diverse de chercheurs de pays tels que l’Inde, le Brésil, la Chine, la Jordanie et la Corée du Sud, a pris plus d’un an. L’équipe a travaillé avec des millions d’échantillons audio pour entraîner le modèle, élargissant sa portée et sa précision sans nécessiter de données supplémentaires.
Selon Rafael Valle, directeur de la recherche appliquée en audio chez NVIDIA et l’un des responsables du projet, « Fugatto représente un pas vers un avenir où l’apprentissage multitâche non supervisé dans la synthèse et la transformation audio émerge des données et de l’échelle du modèle ».
Innovation qui inspire
Les développeurs de Fugatto ont vécu des moments uniques durant le processus de création. L’un d’eux fut lorsque le modèle répondit à une commande pour générer de la musique électronique avec des aboiements de chiens synchronisés au rythme. « Quand l’équipe éclata de rire, j’ai su que nous avions accompli quelque chose de spécial », se rappela Valle.
Fugatto promet de transformer la façon dont le son est créé et perçu, s’établissant comme un outil essentiel pour les artistes et les créatifs du monde entier. NVIDIA continue de démontrer son leadership dans l’utilisation de l’IA pour repousser les limites de l’innovation technologique.