Arm et Alibaba Propulsent l’Intelligence Artificielle Multimodale sur Mobile
La collaboration entre Arm et Alibaba a permis d’élever l’intelligence artificielle multimodale à un nouveau sommet dans le domaine des appareils mobiles. Grâce à l’intégration de KleidiAI d’Arm dans le framework de deep learning MNN, développé par Alibaba, des améliorations allant jusqu’à 57 % dans le traitement des tâches d’IA multimodale en périphérie ont été réalisées. Cette avancée offre des expériences plus rapides et efficaces dans des applications telles que les chatbots et la recherche visuelle dans le commerce électronique.
Optimisation de l’IA en Périphérie avec KleidiAI
Les applications d’IA multimodale sont de plus en plus répandues, combinant texte, images, son et vidéo pour fournir des réponses plus précises et contextuelles. Cependant, leur exécution sur des appareils mobiles pose des défis en raison des limitations en puissance et en mémoire.
Pour y remédier, KleidiAI propose des optimisations qui accélèrent l’inférence des modèles d’IA sur les processeurs Arm sans nécessiter de réglages supplémentaires de la part des développeurs. Cette technologie a déjà été intégrée dans des frameworks populaires tels que ExecuTorch, Llama.cpp, LiteRT et MediaPipe, et maintenant dans le MNN d’Alibaba.
L’optimisation permet au modèle Qwen2-VL-2B-Instruct, constitué de 2 milliards de paramètres et conçu pour la compréhension des images et la génération multimodale en plusieurs langues, de fonctionner de manière efficace sur des appareils mobiles.
Améliorations de la Vitesse et de l’Efficacité
L’intégration de KleidiAI dans MNN a conduit aux résultats suivants :
✅ Amélioration de 57 % du pré-remplissage – Optimisation du traitement des entrées multiples avant la génération d’une réponse.
✅ Amélioration de 28 % dans la décodification – Réduction du temps nécessaire à la génération de texte à partir de l’entrée traitée.
✅ Coûts de calcul réduits – Diminution de la consommation de ressources sur des appareils avec du matériel limité.
Ces améliorations permettent une expérience utilisateur plus fluide dans les chatbots, les assistants virtuels et la recherche de produits via des images.
Démonstration au MWC 2025
Lors du Mobile World Congress 2025, Arm et Alibaba mettront en avant ces améliorations sur le stand d’Arm (Hall 2, Stand I60). La démonstration illustrera comment le modèle Qwen2-VL-2B-Instruct interprète le texte et les images pour générer des réponses en temps réel, s’exécutant sur des smartphones équipés de la puce MediaTek Dimensity 9400.
Un Pas en Avant dans l’IA Mobile
L’intégration de KleidiAI dans MNN constitue un avancement majeur dans le développement de l’IA en périphérie, permettant à des modèles complexes de fonctionner sur des appareils à puissance limitée.
Avec ces optimisations, des millions de développeurs pourront créer des applications d’IA multimodale plus performantes, rapprochant l’intelligence artificielle avancée des utilisateurs mobiles et ouvrant la voie à la prochaine génération d’informatique intelligente.
source : ARM