La start-up chinoise DeepSeek a présenté sa dernière innovation en intelligence artificielle, le modèle DeepSeek-V3, qui promet de redéfinir les standards de l’IA open source. Avec un total de 671 milliards de paramètres, ce modèle utilise une architecture de « mixture-of-experts » (MoE) qui optimise sa performance et défie des modèles fermés tels que ceux de OpenAI et Anthropic, ainsi que des alternatives open source comme Llama 3.1-405B et Qwen 2.5-72B.
Conçu pour être efficace et accessible, DeepSeek-V3 se positionne comme un outil clé dans l’écosystème cloud, avec des applications allant de l’analyse de données jusqu’à la génération de code et de texte.
Architecture avancée et performance optimisée
L’essence de DeepSeek-V3 réside dans son architecture MoE, qui permet d’activer seulement les paramètres nécessaires pour chaque tâche, réduisant de manière significative les coûts matériels. Cette conception est complétée par deux innovations remarquables :
- Stratégie de équilibrage de chargeL’équilibrage de charge est une stratégie utilisée pour distrib… dynamique : ajuste automatiquement la charge entre les « experts » du modèle pour maximiser la performance sans compromettre la qualité.
- Prédiction de multiples tokens : augmente la vitesse de traitement en générant plusieurs tokens simultanément, réalisant une amélioration jusqu’à trois fois en efficacité.
Ces caractéristiques, avec une extension du contexte jusqu’à 128 000 tokens, rendent DeepSeek-V3 idéal pour des applications exigeantes comme le traitement de grands volumes de données ou la création de contenu détaillé dans des environnements cloud.
Un modèle entraîné avec efficacité économique
DeepSeek se distingue non seulement par la capacité technique de son modèle, mais aussi par l’efficacité avec laquelle il a été entraîné. Utilisant 14,8 billions de tokens et des outils tels que le cadre de précision mixte FP8 et l’algorithme DualPipe pour le parallélisme, l’entreprise a réussi à compléter l’entraînement en 2,7 millions d’heures GPU, avec un coût estimé à 5,57 millions de dollars. Cela contraste avec les centaines de millions investis dans des modèles fermés comme Llama 3.1.
Performance supérieure dans des benchmarks clés
DeepSeek-V3 a démontré une performance exceptionnelle dans divers tests, surpassant des modèles ouverts et fermés dans de multiples catégories. Dans l’évaluation Math-500, par exemple, il a obtenu un score de 90,2, dépassant les 80 atteints par Qwen et établissant un nouveau standard en précision mathématique. De plus, il s’est distingué dans des benchmarks axés sur la langue chinoise et dans des tâches liées au codage.
Cependant, dans des domaines spécifiques comme les questions simples en anglais (SimpleQA), des modèles comme le GPT-4 d’OpenAI maintiennent encore un léger avantage. Malgré cela, la performance générale de DeepSeek-V3 le positionne comme leader sur le marché open source.
Implications pour l’écosystème cloud
L’arrivée de DeepSeek-V3 représente une avancée significative pour le secteur de l’intelligence artificielle et du cloud computing. En tant que modèle open source, il offre aux entreprises une alternative puissante et abordable face aux solutions fermées à coût élevé, démocratisant l’accès aux technologies avancées.
DeepSeek propose également une APIUne API, sigles en anglais de « Application Programming Interf… commerciale qui permet aux entreprises de tester le modèle dans leurs propres environnements. Disponible initialement au même prix que son prédécesseur, DeepSeek-V2, les coûts seront ajustés après le 8 février à 0,27 dollar par million de tokens d’entrée et 1,10 dollar par million de tokens de sortie.
Un pas de plus vers la démocratisation de l’IA
Avec DeepSeek-V3, la concurrence entre des modèles open source et fermés s’intensifie, profitant aux entreprises et développeurs qui cherchent des solutions avancées et rentables. Ce lancement ne renforce pas seulement le potentiel de l’open source, mais contribue également au développement de technologies plus inclusives dans le domaine de l’intelligence artificielle et du cloud.
Le modèle est déjà disponible sur GitHub sous une licence ouverte, et son code peut être mis en œuvre sur des plateformes comme Hugging Face, consolidant DeepSeek comme un acteur clé dans le paysage mondial de l’IA et du cloud computing.