Qwen2.5-Max : Un modèle d’intelligence artificielle à grande échelle qui marque une nouvelle ère

Qwen2.5-Max : Un modèle d'intelligence artificielle à grande échelle qui marque une nouvelle ère

Le groupe Qwen a dévoilé sa dernière innovation : le modèle Qwen2.5-Max, un système d’intelligence artificielle basé sur l’architecture Mixture of Experts (MoE). Ce modèle, entraîné avec plus de 20 billions de tokens, vise à établir de nouveaux standards dans le domaine de l’intelligence artificielle à grande échelle. Avec ce lancement, Qwen2.5-Max se positionne comme une alternative compétitive aux modèles leaders du marché, tels que GPT-4o, DeepSeek V3 et Claude-3.5-Sonnet.

Un bond qualitatif dans l’entraînement des modèles

Le succès de Qwen2.5-Max repose sur son approche innovante en matière de mise à l’échelle des données et des modèles. Selon l’équipe responsable de ce développement, augmenter à la fois la taille des données et celle du modèle permet d’atteindre des améliorations significatives en intelligence artificielle. Cependant, la mise à l’échelle de modèles extrêmement grands, qu’ils soient denses ou basés sur MoE, représente un défi nécessitant une compréhension approfondie et un contrôle minutieux des détails.

Cet avancement a été rendu possible grâce aux dernières découvertes concernant les techniques utilisées dans le développement de DeepSeek V3, un modèle qui a jeté les bases du progrès de Qwen2.5-Max. De plus, le modèle a bénéficié d’un entraînement supplémentaire via des méthodes de Fine-Tuning Supervisé (SFT) et Apprentissage par Renforcement avec Retour d’Information Humain (RLHF), optimisant ainsi ses capacités.

Performance dans les benchmarks

Les performances de Qwen2.5-Max ont été évaluées à travers une série de tests de référence mesurant la capacité des modèles dans des domaines tels que la résolution de problèmes universitaires, les compétences en codage, les capacités générales et les préférences humaines. Parmi les tests notables figurent MMLU-Pro, LiveCodeBench, LiveBench et Arena-Hard.

Comparé à DeepSeek V3, Qwen2.5-Max a montré une performance supérieure dans des tests tels qu’Arena-Hard, LiveBench, LiveCodeBench et GPQA-Diamond. Il a également présenté des résultats compétitifs dans d’autres évaluations, y compris MMLU-Pro, le plaçant ainsi en tête dans le domaine de l’IA.

Disponibilité et utilisation

Qwen2.5-Max est dès à présent accessible sur Qwen Chat, une plateforme permettant aux utilisateurs d’interagir directement avec le modèle, d’effectuer des recherches et d’explorer ses fonctionnalités. En outre, son API, compatible avec les APIs d’OpenAI, est accessible via Alibaba Cloud. Pour l’utiliser, les utilisateurs doivent s’inscrire sur Alibaba Cloud, activer le service Alibaba Cloud Model Studio et générer une clé API.

L’équipe a partagé un exemple de code en Python montrant comment utiliser Qwen2.5-Max pour résoudre des requêtes simples, comme déterminer quel nombre est le plus élevé entre 9,11 et 9,8. Cette facilité d’utilisation ouvre un large éventail de possibilités pour les développeurs et les entreprises souhaitant intégrer une IA avancée dans leurs applications.

via : Actualités Réseaux Sociaux