Une nouvelle IA chinoise fait son entrée sur le marché de la vidéo générative : MAGI-1 de Sand AI
Dans un secteur dominé par des noms comme OpenAI, Google DeepMind et Anthropic, une nouvelle proposition chinoise, MAGI-1, s’impose avec force dans le domaine compétitif de l’intelligence artificielle générative. Ce modèle autoregressif de génération de vidéo à grande échelle, développé par Sand AI, promet de rehausser les standards de ce que les modèles de diffusion peuvent accomplir en matière de synthèse visuelle.
Avec ses 24 milliards de paramètres, une architecture basée sur des Transformers optimisés et une approche entièrement open source, MAGI-1 dépasse en de nombreux points des modèles commerciaux tels que Sora ou Kling, selon des évaluations techniques récentes et les propres benchmarks de la société.
Une approche technique innovante : génération par segment et architecture autoregressive
Contrairement à d’autres générateurs de vidéo par IA qui traitent la vidéo comme une séquence complète, MAGI-1 adopte une stratégie "segment par segment" : il divise la vidéo en segments de 24 images, qu’il traite de manière séquentielle et autoregressive, assurant ainsi une cohérence temporelle de gauche à droite entre les segments.
Ce design permet :
- Une scalabilité naturelle pour le streaming et la synthèse en temps réel.
- Une meilleure cohérence visuelle entre les scènes.
- Un traitement parallèle de plusieurs blocs pendant l’inférence.
La conception repose sur un modèle de diffusion de type Transformer, intégrant des améliorations telles que Block-Causal Attention, QK-Norm, Sandwich Normalization et Softcap Modulation. De plus, une approche de bruit progressif dans le temps durant l’entraînement permet au modèle d’apprendre la causalité entre les images.
Performance exceptionnelle face aux modèles ouverts et commerciaux
MAGI-1 a été évalué à la fois sur des benchmarks humains et via des tests automatiques. En termes de fidélité de mouvement, d’adhésion aux instructions et de continuité sémantique, il surpasse clairement des modèles ouverts tels que Wan-2.1 et HunyuanVideo, et rivalise avec des solutions propriétaires comme Sora, Kling, Hailuo et même VideoPoet de Google.
Dans le benchmark Physics-IQ, qui évalue la capacité des modèles à comprendre et à prédire le comportement physique dans des environnements dynamiques, MAGI-1 obtient des scores de pointe grâce à sa nature autoregressive, dépassant tous les modèles actuels tant en précision spatiale que temporelle.
Résultats marquants (I2V)
Modèle | Physics IQ ↑ | Cohérence Spatiale ↑ | Cohérence Espace-Temps ↑ | MSE ↓ |
---|---|---|---|---|
MAGI-1 (I2V) | 30.23 | 0.203 | 0.151 | 0.012 |
Kling 1.6 | 23.64 | 0.197 | 0.086 | 0.025 |
VideoPoet | 20.30 | 0.141 | 0.126 | 0.012 |
Sora | 10.00 | 0.138 | 0.047 | 0.030 |
Contrôle narratif et génération conditionnelle : un atout majeur
L’un des principaux avancés de MAGI-1 est son système de prompts par segment, permettant de contrôler la narration de chaque segment vidéo individuellement tout en maintenant une cohérence globale. Cela permet de :
- Définir différents événements dans différentes parties de la vidéo.
- Appliquer des transitions fluides entre les scènes.
- Réaliser des édites en temps réel à partir de textes ou d’images.
De plus, le système prend en charge des tâches t2v (texte à vidéo), i2v (image à vidéo) et v2v (suite de vidéo), élargissant ses capacités pour divers flux créatifs et commerciaux.
Open Source et démocratisation de la vidéo par IA
Contrairement à d’autres leaders du secteur, Sand AI a opté pour une démarche entièrement ouverte : le modèle, le code d’inférence, les configurations et la documentation sont disponibles sur GitHub sous licence Apache 2.0, avec un support pour Docker et Conda. Cette stratégie réduit les barrières d’entrée pour les chercheurs, les créateurs et les startups souhaitant expérimenter avec la génération de vidéos réalistes sans dépendre d’APIs commerciales fermées.
Un nouveau standard pour la vidéo par IA ?
Si DeepSeek a fixé la cadence pour les modèles de langage open source, MAGI-1 semble prêt à faire de même dans le domaine audiovisuel. Le soutien de personnalités telles que Kai-Fu Lee (directeur de Microsoft Research Asia) et l’intérêt croissant pour le dépôt GitHub laissent entendre qu’il ne s’agit pas d’un simple projet expérimental, mais d’une solide volonté de compétition à l’échelle mondiale.
MAGI-1 se présente comme plus qu’un modèle d’IA générative : c’est une infrastructure visuelle puissante, flexible et libre, qui arrive à un moment où la génération de vidéos devient le prochain grand champ de bataille en intelligence artificielle. Face à des propositions fermées telles que Sora ou Gemini, la transparence et la qualité technique de MAGI-1 pourraient bien en faire le nouveau référent de la génération visuelle open source.
Source : Actualités Intelligence Artificielle