Génération audio avec IA sur smartphones : le pari d’Arm et de Stability AI

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

La collaboration entre Arm et Stability AI a permis une avancée significative dans la génération de son par intelligence artificielle directement sur les appareils mobiles. Grâce à l’optimisation de la technologie KleidiAI d’Arm, la conversion de texte en audio est désormais 30 fois plus rapide, ouvrant de nouvelles possibilités pour la création de contenu et d’expériences numériques sans nécessiter de connexion Internet.

Génération audio en quelques secondes avec Stable Audio Open

Le modèle de génération audio de Stability AI, Stable Audio Open, permet aux utilisateurs de créer des effets sonores, des sonneries ou même des pistes musicales en rédigeant simplement une description. Toutefois, exécuter ce type de modèle sur des appareils mobiles sans connexion au cloud représentait un défi technique important.

Au départ, la génération d’un seul extrait audio prenait plus de quatre minutes, ce qui s’avérait peu pratique pour l’utilisateur final. Grâce à l’intégration de KleidiAI, accompagnée des optimisations apportées à XNNPack et ExecuTorch, ce temps a été réduit à seulement quelques secondes sur les appareils mobiles équipés de processeurs Arm.

Cette amélioration rend non seulement l’utilisation de l’IA générative en audio plus accessible, mais permet également à des millions d’appareils à travers le monde de tirer parti de cette technologie sans dépendre de serveurs externes.

Comment Arm et Stability AI ont optimisé les performances

Pour atteindre ces résultats, Stability AI a collaboré avec Arm pour réduire et optimiser le modèle d’IA afin de le rendre exécutable sur des CPU mobiles. Cela a inclus :

Optimisation des paramètres du modèle pour équilibrer performance et qualité.
Utilisation de KleidiAI, qui améliore l’exécution de l’IA sur les processeurs Arm sans nécessiter de modifications supplémentaires de la part du développeur.
Exécution de tout le processus hors ligne, garantissant une plus grande confidentialité et une consommation d’énergie réduite.

« Alors que de plus en plus d’entreprises et de créateurs adoptent l’IA générative, il est essentiel que ces modèles soient accessibles sur n’importe quelle plateforme. Arm a été un partenaire idéal pour rendre cela possible, » a déclaré Prem Akkaraju, PDG de Stability AI.

Applications et avantages de l’IA générative audio

Cette innovation a le potentiel de transformer des secteurs tels que :

✅ Création de contenu – Génération d’effets sonores personnalisés pour les vidéos, les réseaux sociaux et les jeux.
✅ Édition vidéo mobile – Intégration rapide de l’audio sans avoir besoin de télécharger des extraits sur Internet.
✅ Divertissement et personnalisation – Création de sonneries ou d’alarmes personnalisées en quelques secondes.
✅ Accessibilité et éducation – Production de narrations automatiques ou d’assistants audio améliorés.

Démo au MWC 2025

Lors du Mobile World Congress 2025, Arm et Stability AI présenteront leur solution sur le stand d’Arm, au Hall 2 Stand I60. La démonstration inclura des dispositifs tels que le vivo X200 Series avec le processeur MediaTek Dimensity 9400 basé sur l’architecture Armv9.

Cette collaboration n’est que le début d’une nouvelle ère pour l’IA générative exécutée sur des appareils mobiles, permettant des expériences plus rapides, privées et accessibles. Avec de futures optimisations, Stability AI et Arm prévoient d’étendre cette technologie aux images, vidéos et modèles 3D, redéfinissant la création numérique directement depuis les smartphones.

via : ARM