Fugu de Sakana AI démontre que la prochaine frontière ne sera pas un seul modèle géant

L'essor des LLM open source : vers une intelligence artificielle plus démocratique et durable

Sakana AI a présenté Fugu, une famille d’orchestrateurs de modèles qui remet en debate un des sujets les plus captivants de l’intelligence artificielle moderne : la progression des performances viendra-t-elle uniquement de l’entraînement de modèles monolithiques de plus en plus grands, ou bien de la coordination de plusieurs modèles spécialisés via des systèmes multi-agents plus intelligents ?

Ce concept n’est pas nouveau pour les équipes techniques familières avec LangGraph, CrewAI, AutoGen, MCP, les agents de code, les validateurs, les outils externes et les flux RAG. Ce qui est remarquable, c’est que Sakana AI a transformé cette intuition en un rapport technique avec des résultats mesurables. Fugu-Ultra, sa version axée sur une qualité maximale, atteint 73,7 % sur SWE-Bench Pro, surpassant les 69,2 % attribués à Claude Opus 4.8 dans le même rapport. Il obtient également 82,1 % sur Terminal Bench 2.1, face aux 78,2 % de GPT-5.5 et 74,6 % d’Opus 4.8.

Au fond, le message est clair : Fugu ne cherche pas à être « un autre LLM » qui se mesure uniquement par sa taille. C’est un modèle entraîné pour décider quel agent doit intervenir, comment diviser une tâche, quelles réponses doivent être vérifiées et quand il est pertinent de synthétiser une réponse finale. L’intelligence artificielle commence à ressembler moins à un seul cerveau massif, et plus à un système distribué de spécialistes.

Un orchestrateur à la frontière des modèles

Le rapport de Sakana AI définit Fugu comme une famille d’orchestrateurs exploitant et amplifiant les capacités d’une équipe d’agents LLM. L’utilisateur interagit avec Fugu comme s’il s’agissait d’un seul modèle, mais en réalité, le système peut router, déléguer et coordonner des tâches entre plusieurs modèles. Dans sa version initiale, le pool comprend des modèles tels que Claude Opus 4.8, GPT-5.5 et Gemini 3.1 Pro.

Deux variantes principales existent. Fugu est conçue pour une utilisation interactive à faible latence : elle sélectionne un seul agent pour chaque tâche, permettant une réponse quasi immédiate comparable à un appel direct à un modèle en frontière. À l’inverse, Fugu-Ultra privilégie la qualité : elle crée des flux avec plusieurs agents pour chaque tâche, acceptant une latence accrue et une complexité supérieure.

Système Approche Avantage principal Coûts opérationnels
Fugu Enracinement vers un seul agent Faible latence et sélection dynamique du meilleur agent Similaire à un appel direct, avec surcharge d’orchestration
Fugu-Ultra Flux multi-agent à plusieurs étapes Qualité supérieure pour des tâches complexes Plus d’appels, plus de latence, coûts plus élevés
Modèle monolithique Un seul modèle répondant à tout Simplicité d’utilisation et déploiement Peut être coûteux ou moins adapté aux tâches spécifiques
Multi-agents manuel Flux conçus par le développeur Contrôle précis du processus Plus d’ingénierie, maintenance accrue, risque de points de défaillance

L’aspect technique est essentiel. Fugu ne se limite pas à une simple « majorité » de votes entre modèles ou à l’envoi de la même question à plusieurs systèmes. Dans sa version à faible latence, elle utilise un module de sélection léger basé sur l’état interne du système pour choisir l’agent le plus approprié. Avec Fugu-Ultra, le système génère des flux de travail en langage naturel : il divise la tâche, attribue des sous-tâches, détermine quels agents peuvent voir quelles réponses antérieures et décide comment synthétiser le résultat final.

Les benchmarks racontent une partie de l’histoire

Les résultats publiés sont impressionnants, mais doivent être interprétés avec prudence. Sakana AI compare Fugu et Fugu-Ultra à des modèles de pointe via des benchmarks comme SWE-Bench Pro, Terminal Bench 2.1, LiveCodeBench Pro, GPQA Diamond, CharXiv Reasoning et Humanity’s Last Exam. Dans plusieurs cas, Fugu-Ultra dépasse les modèles individuels qu’elle utilise comme agents.

Par exemple, sur SWE-Bench Pro, Fugu-Ultra atteint 73,7 %, contre 69,2 % pour Claude Opus 4.8, 58,6 % pour GPT-5.5 et 54,2 % pour Gemini 3.1. Sur Terminal Bench 2.1, elle réalise 82,1 %, contre 80,2 % pour Fugu, 74,6 % pour Claude et 78,2 % pour GPT-5.5. Sur GPQA Diamond, les deux variantes affichent un 95,5 %, dépassant Opus 4.8, GPT-5.5 et Gemini 3.1 selon le rapport.

Benchmark Fugu-Ultra Fugu Claude Opus 4.8 Gemini 3.1 GPT-5.5
SWE-Bench Pro 73,7 59,0 69,2 54,2 58,6
Terminal Bench 2.1 82,1 80,2 74,6 70,3 78,2
LiveCodeBench Pro 90,8 87,8 84,8 82,9 88,4
GPQA Diamond 95,5 95,5 92,0 94,3 93,6
CharXiv Reasoning 86,6 85,1 84,2 83,3 84,1
Humanity’s Last Exam 50,0 47,2 49,8 44,4 41,4

L’essentiel n’est pas que « un petit modèle japonais » ait surpassé Claude ou GPT, mais plutôt que Fugu-Ultra parvient à ces résultats précisément parce qu’elle utilise des modèles puissants comme composants d’un système supérieur. La véritable avancée réside dans la coordination : choisir le spécialiste adapté, alterner les modèles au cours d’une tâche, utiliser la validation croisée lorsque nécessaire.

L’infographie donne quelques exemples intéressants. En programmation, Fugu peut faire appel à GPT-5.5 pour construire, puis recourir à Claude Opus 4.8 lors de phases critiques de débogage. En sciences, elle peut s’appuyer davantage sur Gemini pour le savoir spécialisé et sur GPT pour les calculs mathématiques. Cette adaptation par domaine représente une nouvelle voie pour faire évoluer l’IA, selon Sakana AI.

Les doutes sur les modèles fermés

Le succès de Fugu soulève une question difficile : dans quelle mesure la performance des grands modèles fermés provient-elle réellement du modèle de base ou de la couche systémique qui l’entoure ?

Il n’existe pas de preuve publique indiquant que Claude Mythos, Fable 5, GPT-5.5 ou tout autre modèle fermé fonctionnent exactement comme Fugu en interne. Affirmer cela comme un fait serait dépasser l’évidence disponible. Cependant, il est raisonnable de penser que les systèmes de pointe ne se résument pas à de simples appels à un modèle brut. Dans des produits comme Claude Code, Codex ou les agents avancés, la performance dépend aussi d’outils, de mémoire, d’exécution de commandes, de récupération de contexte, de validateurs, de prompts internes et de boucles de rétroaction.

Fugu met en lumière une architecture que beaucoup d’entreprises pressentaient : la capacité pratique d’un LLM ne se limite pas à ses seuls poids, mais dépend aussi du système dans lequel il s’insère. Le rapport évoque d’ailleurs ces « agents scaffolds », des structures qui transforment un modèle autoregressif en un agent capable de planifier, d’utiliser des outils, de vérifier son travail et d’exploiter les signaux de l’environnement.

Pour les fournisseurs fermés, une interface simple a des avantages commerciaux : le client veut une réponse, pas nécessairement connaître tous les détails techniques. Cependant, pour les développeurs, les entreprises ou les institutions, cette opacité pose problème : cela impacte le coût, la sécurité, la dépendance au fournisseur et la reproductibilité des résultats.

Ce que cela implique pour le marché de l’IA

Fugu trace une voie très pertinente pour le secteur : la performance ne dépend plus uniquement de l’extension de l’entraînement. Elle peut aussi venir d’une meilleure composition des capacités existantes. Cela a des impacts techniques, économiques et géopolitiques significatifs.

La première concerne la modularité. Un système peut intégrer de nouveaux modèles dès leur apparition, exclure certains pour des raisons de confidentialité ou de conformité, privilégier des modèles locaux pour des données sensibles, ou utiliser des modèles premium uniquement lorsque la tâche le justifie. Sakana AI insiste sur le fait que l’orchestration permet de configurer des pools d’agents selon les contraintes d’utilisateur, de fournisseur, de confidentialité ou de conformité.

La seconde concerne l’efficacité. Si une tâche simple peut être réalisée par un modèle moins coûteux, il n’a pas de sens d’appeler systématiquement le modèle le plus cher. Si une sous-tâche nécessite une débogage avancé, le spécialiste approprié peut intervenir uniquement à ce moment-là. Dans une économie où le coût par token et la latence comptent, cette sélection dynamique pourrait représenter un avantage considérable.

La troisième concerne l’accessibilité. Entraîner un modèle de pointe demande d’énormes ressources. Concevoir une bonne couche d’orchestration peut aussi être difficile, mais c’est peut-être plus accessible pour les entreprises disposant déjà de plusieurs modèles, outils internes et données propres. Toutes ne pourront pas réaliser un Fugu-Ultra, mais beaucoup peuvent construire des architectures inspirées par cette logique.

La quatrième, c’est la complexité. Les systèmes multi-agents ne sont pas une magie : ils introduisent de la latence, un coût en tokens, des défis de traçabilité, la gestion des erreurs, des contradictions entre agents et une dépendance à plusieurs fournisseurs. Un mauvais orchestrateur peut détériorer le résultat. Fugu se concentre sur la formation de cette coordination, non sur l’assemblage au hasard d’agents.

La compétition entre un modèle monolithique et un ensemble d’agents ne produira pas une réponse unique. Certaines tâches seront encore parfaitement adaptées à un seul modèle puissant. D’autres bénéficieront d’une orchestration de spécialistes. Dans les domaines du logiciel, de la science, de la recherche, de la sécurité informatique, de la conception assistée par ordinateur, de l’analyse longue et des flux intégrant outils et APIs, la seconde approche devient de plus en plus séduisante.

Sakana AI n’a pas démontré que les grands modèles fermés sont devenus obsolètes. Elle a montré quelque chose d’encore plus intéressant : que l’unité de compétition n’est plus forcément le simple « modèle » individuel. La nouvelle unité pourrait bien être le système dans son ensemble. Et dans ce système, l’orchestration, la mémoire, les rôles, les outils, la vérification comptent autant que la taille du LLM.

Questions fréquentes

Qu’est-ce que Fugu de Sakana AI ?
Fugu est une famille de modèles orchestrateurs qui coordonnent plusieurs modèles de langage de pointe pour résoudre des tâches. L’utilisateur interagit comme s’il s’agissait d’un seul modèle, mais en réalité, le système peut choisir, combiner et vérifier les réponses de différents agents.

Fugu dépasse-t-elle réellement Claude Opus 4.8 ?
Dans certains benchmarks du rapport, Fugu-Ultra dépasse Claude Opus 4.8, notamment sur SWE-Bench Pro et Terminal Bench 2.1. Cependant, cela s’appuie sur une architecture multi-agent orchestrée, pas sur un seul modèle autonome.

Fugu utilise-t-elle Mythos ou Fable 5 en dessous ?
Non. Le rapport précise que Fable 5 et Mythos Preview ne font pas partie du pool d’agents de Fugu, car ils ne sont pas accessibles publiquement.

Quelles implications pour les entreprises utilisant l’IA en production ?
Elles peuvent améliorer leurs résultats en combinant modèles spécialisés, outils, validateurs et routeurs, plutôt que de s’appuyer uniquement sur un modèle premium unique. La clé réside dans une architecture bien conçue et une mesure précise du rendement, des coûts et de la latence.

Sources :
Sakana AI, Rapport Technique Sakana Fugu, arXiv:2606.21228v1.

le dernier