How does Claude Fable 5 perform on SWE-Bench Pro compared to GPT-5.5 and Gemini 3.1 Pro?

Claude Fable 5 scores 80.3% on SWE-Bench Pro, compared with 58.6% for GPT-5.5 and 54.2% for Gemini 3.1 Pro. This gives Fable 5 a 21.7-point lead over GPT-5.5 and a 26.1-point lead over Gemini on this Python-focused coding benchmark.

Is Claude Fable 5 available via API right now?

Yes. Claude Fable 5 is available under the model ID claude-fable-5 through the Claude API, AWS Bedrock, and GitHub Copilot. Developers can also access it alongside GPT-5.5, Gemini 3.1 Pro, and Grok 4 through the Eden AI Chat API using one API key.

How much does Claude Fable 5 cost per million tokens?

Claude Fable 5 costs $10 per million input tokens and $50 per million output tokens. It is priced below Claude Mythos Preview while remaining more expensive than typical mid-tier models.

Is Claude Fable 5 better than GPT-5.5 for coding?

On SWE-Bench Pro, Claude Fable 5 outperforms GPT-5.5, scoring 80.3% compared with 58.6%. However, SWE-Bench Pro focuses on Python repositories, so production results may differ across languages, frameworks, and task types.

Does Gemini 3.1 Pro outperform Claude Fable 5 on any benchmarks?

Yes. Gemini 3.1 Pro leads GPQA Diamond with 94.3%, while Claude Fable 5 scores 91.3%. For narrow, PhD-level scientific reasoning workloads, Gemini 3.1 Pro has a slight benchmark advantage.

What is the context window of Claude Fable 5?

Claude Fable 5 supports a context window of more than one million tokens. This can enable developers to analyze large codebases, extensive documentation, or multiple long reports within a single request.

Can I compare Claude Fable 5, GPT-5.5, and Gemini on my own data?

Yes. Eden AI's model comparison tool lets developers test multiple models against the same prompts and production data. This provides a more reliable basis for model selection than relying only on published benchmarks.

What is the difference between Claude Fable 5 and Claude Mythos 5?

Claude Fable 5 is the general-release Mythos-class model, with safety guardrails designed for standard production use. Claude Mythos 5 is restricted to authorized cybersecurity and biomedical researchers and provides access with selected guardrails lifted. Developers can test Claude Fable 5 and compare it with other models through Eden AI.

Claude Fable 5 Benchmark vs Gemini 3.1, GPT-5.5 et Grok 4

Résumez cet article avec :

Résumé

‍

Claude Fable 5 a été lancé le 9 juin 2026 avec un positionnement clair sur le développement logiciel autonome, l’utilisation d’interfaces informatiques et l’automatisation de workflows professionnels complexes.

Pour les développeurs, la question n’est pas seulement de savoir si le modèle obtient de nouveaux scores de référence. Il s’agit surtout de déterminer si ces performances se traduisent concrètement par moins d’échecs lors des appels d’outils, de meilleures modifications à l’échelle d’un dépôt de code et une supervision humaine réduite.

Ce comparatif des benchmarks de Claude Fable 5 analyse ses points forts face à GPT-5.5, Gemini 3.1 Pro et Grok 4, tout en identifiant les cas d’usage pour lesquels les modèles concurrents restent plus performants.

En bref

Benchmark	Claude Fable 5	GPT-5.5	Gemini 3.1 Pro	Grok 4
SWE-Bench Pro	80,3 %	58,6 %	54,2 %	~75 %
GPQA Diamond	91,3 %	92,8 %	94,3 %	—
OSWorld	85,0 %	78,7 %	76,2 %	—
Hebbia Finance	#1	—	—	—
Prix API pour 1M de tokens	10 $ ent. / 50 $ sort.	5 $ ent. / 30 $ sort.	2 $ ent. / 12 $ sort.	3 $ ent. / 15 $ sort.

Qu’est-ce que Claude Fable 5 ?

Claude Fable 5 est le premier modèle de la gamme Mythos d'Anthropic, lancé le 9 juin 2026. Positionné au-dessus de Claude Opus 4.8, il a été conçu pour les cas d’usage nécessitant une autonomie prolongée, notamment le développement logiciel à l’échelle d’un dépôt de code, l’utilisation d’interfaces informatiques et l’exécution de tâches agentiques de longue durée.

La principale différence avec Opus 4.8 ne réside pas seulement dans une meilleure qualité de réponse. Claude Fable 5 est conçu pour conserver le contexte et exécuter des tâches en plusieurs étapes dans des environnements beaucoup plus vastes, grâce à une fenêtre de contexte de plus d’un million de tokens.

Pour les utilisateurs de l’API, cela signifie moins d’interventions manuelles lors de l’analyse de grandes bases de code, de la coordination de plusieurs outils ou de l’exécution de tâches impliquant de nombreux fichiers et dépendances.

Un exemple concret vient de Stripe, qui a utilisé Claude Fable 5 pour réaliser en une journée une migration portant sur une base de code de 50 millions de lignes. Un tel projet aurait normalement mobilisé une équipe de développement pendant environ deux mois. Cet exemple montre comment l’autonomie de Claude Fable 5 peut réduire considérablement les cycles d’exécution des grands projets d’ingénierie logicielle.

Caractéristiques principales de Claude Fable 5

Gamme du modèle : Anthropic Mythos
Identifiant du modèle : claude-fable-5
Fenêtre de contexte : plus d’un million de tokens
Tarification API : 10 $ par million de tokens en entrée et 50 $ par million de tokens en sortie
Disponibilité : API Claude, Amazon Bedrock et GitHub Copilot

Pour les équipes utilisant déjà Claude Opus 4.8, Fable 5 devient particulièrement pertinent lorsque le principal défi n’est plus de générer du code, mais de mener à bien des workflows complexes de manière fiable, avec moins de supervision humaine.

Comparaison complète des benchmarks — Source : Anthropic

Catégorie & Benchmark	Claude Fable 5	Claude Mythos Preview	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
Codage agentiqueSWE-Bench Pro	80,3 %	77,8 %	69,2 %	58,6 %	54,2 %
Codage agentiqueFrontierCode (Diamond)	29,3 %xhigh	—	13,4 %xhigh	5,7 %xhigh	—
Travail de connaissanceGDPval-AA	1932	—	1890	1769	1314
Travail de connaissance — visionGDPpdf	29,8 %sans outils	—	22,5 %sans outils	24,9 %sans outils	16,7 %sans outils
Raisonnement spatialBlueprint-Bench 2	38,6 %	—	14,5 %	36,2 %	26,5 %
Utilisation d'outilsAutomationBench	17,4 %	—	15,5 %	12,9 %	9,6 %
Utilisation informatiqueOSWorld-Verified	85,0 %	85,4 %	83,4 %	78,7 %	76,2 %
JuridiqueLegal Agent Benchmark	13,3 %	—	10,4 %	2,1 %	0,0 %
Raisonnement multidisciplinaireHumanity's Last Exam — sans outils	59,0 %*	56,8 %	49,8 %	41,4 %	44,4 %
Raisonnement multidisciplinaireHumanity's Last Exam — avec outils	64,5 %*	64,7 %	57,9 %	52,2 %	51,4 %
BiologieBioMysteryBench — difficile	46,1 %*	29,6 %	40,0 %	—	—
BiologieBioMysteryBench — résolu par humain	83,9 %*	82,6 %	80,4 %	—	—
Codage agentiqueTerminal-Bench 2.1	88,0 %*	—	82,7 %	83,4 %Codex CLI	70,7 %Gemini CLI
CybersécuritéExploitBench (Cap%)	78,0 %*	69,0 %	40,0 %	34,0 %	—
SantéHealthBench Professional	66,0 %*	64,7 %	56,9 %	51,8 %	—

* Les benchmarks marqués d'un astérisque présentent un écart plus important en raison des garde-fous de blocage pour les questions liées à la cybersécurité et à la biologie. Pour ces benchmarks, Claude Fable 5 performe plus près de Claude Opus 4.8 en raison des mécanismes de repli. Les scores rapportés sont dans une différence de 1 à 3 points de pourcentage entre Claude Mythos 5 et Claude Fable 5.

Performances en programmation : SWE-Bench Pro

Claude Fable 5 obtient un score de 80,3 % sur SWE-Bench Pro, ce qui en fait le modèle le plus performant en programmation parmi les quatre solutions comparées. Grok 4 arrive en deuxième position avec environ 75 %, tandis que GPT-5.5 atteint 58,6 % et Gemini 3.1 Pro 54,2 %.

Performance en codage

Modèle	SWE-Bench Pro
Claude Fable 5	80,3 %
Grok 4	~75 %
GPT-5.5	58,6 %
Gemini 3.1 Pro	54,2 %

Cette avance suggère que Claude Fable 5 est particulièrement adapté aux tâches d’ingénierie logicielle longues et complexes, dans lesquelles le modèle doit explorer un dépôt de code, comprendre les dépendances et conserver le contexte au fil de plusieurs actions. Son avantage est donc plus significatif pour les agents de programmation autonomes que pour la simple génération de courts extraits de code.

La migration de 50 millions de lignes de code réalisée chez Stripe apporte un exemple concret de ces performances. Claude Fable 5 aurait terminé en une journée une tâche qui aurait normalement mobilisé une équipe pendant environ deux mois, ce qui montre que ses résultats en programmation peuvent également se traduire par des gains de productivité sur des projets réels.

Il faut toutefois garder à l’esprit que SWE-Bench Pro se concentre principalement sur des dépôts Python. Les équipes travaillant surtout avec d’autres langages devraient donc tester Claude Fable 5 sur leurs propres bases de code avant de considérer cette avance comme universelle.

Raisonnement et traitement des connaissances

Claude Fable 5 ne domine pas tous les benchmarks de raisonnement. Sur GPQA Diamond, qui évalue la capacité des modèles à répondre à des questions scientifiques complexes de niveau universitaire avancé, Gemini 3.1 Pro arrive en tête avec 94,3 %, suivi de GPT-5.5 à 92,8 % et de Claude Fable 5 à 91,3 %.

Raisonnement scientifique

Modèle	GPQA Diamond
Gemini 3.1 Pro	94,3 %
GPT-5.5	92,8 %
Claude Fable 5	91,3 %

Pour les tâches de raisonnement scientifique avancé, Gemini 3.1 Pro conserve donc un léger avantage. Les équipes qui développent des applications de questions-réponses scientifiques ne doivent pas supposer que la supériorité de Fable 5 en programmation en fait automatiquement le meilleur modèle pour toutes les tâches nécessitant des connaissances approfondies.

Le classement évolue lorsque la charge de travail se rapproche davantage des besoins d’analyse en entreprise. Claude Fable 5 se classe premier parmi tous les modèles sur le Finance Benchmark de Hebbia, qui couvre des tâches complexes reposant sur de nombreux documents : interprétation de graphiques, raisonnement à partir de plusieurs sources et résolution structurée de problèmes.

Les scores numériques précis n’étant pas disponibles, ce résultat doit être considéré comme un classement comparatif, et non comme une comparaison directe de performances chiffrées.

La différence tient principalement au type de tâche. Fable 5 peut être légèrement moins performant que Gemini sur des questions scientifiques spécialisées de niveau doctoral, mais il semble plus efficace sur les workflows analytiques qui nécessitent de rechercher des preuves, de relier des informations issues de longs documents et de produire une conclusion structurée.

Pour les cas d’usage liés à la finance, au conseil, à la due diligence et à l’automatisation de la recherche, ce profil de raisonnement plus polyvalent peut être plus important qu’un léger écart sur GPQA Diamond.

Le Legal Agent Benchmark mesure la capacité d’un modèle à exécuter de manière autonome des tâches de raisonnement juridique en plusieurs étapes, notamment l’analyse de documents, l’étude de dossiers et la génération de résultats structurés.

Les scores absolus restent faibles pour l’ensemble des modèles, car il s’agit d’un benchmark récent et particulièrement exigeant. Cela ne signifie pas que ces systèmes sont inutilisables pour les tâches juridiques, mais plutôt que l’automatisation complète de workflows juridiques complexes reste encore difficile.

Raisonnement juridique

Modèle	Legal Agent Benchmark
Claude Fable 5	13,3 %
Claude Opus 4.8	10,4 %
GPT-5.5	2,1 %
Gemini 3.1 Pro	0,0 %

L’écart entre Claude Fable 5 et Gemini 3.1 Pro, avec 13,3 % contre 0,0 %, est particulièrement pertinent pour les équipes qui développent des workflows de recherche juridique, d’analyse de contrats ou d’automatisation de la conformité. Ce résultat doit toutefois être interprété comme une tendance, le benchmark étant encore récent et appelé à évoluer.

Vision et utilisation d’un ordinateur

Claude Fable 5 obtient un score de 85,0 % sur OSWorld-Verified, un benchmark qui évalue la capacité d’une IA à utiliser un ordinateur en naviguant dans des interfaces, en cliquant sur les commandes appropriées et en réalisant des tâches en plusieurs étapes dans différentes applications.

Ce benchmark mesure bien plus que la simple reconnaissance visuelle. Le modèle doit interpréter les éléments affichés à l’écran, sélectionner l’action adaptée et ajuster son comportement lorsque l’interface évolue.

Les capacités visuelles de Claude Fable 5 lui permettent également d’extraire des valeurs numériques précises à partir de graphiques scientifiques et de reconstruire le code source d’une application web uniquement à partir de captures d’écran. Ces fonctionnalités sont particulièrement utiles lorsque des informations visuelles doivent être transformées en données structurées ou en résultats directement exploitables.

Le score de 85,0 % obtenu par Fable 5 est élevé, mais il ne suffit pas, à lui seul, à démontrer que le modèle surpasse systématiquement ses concurrents dans tous les scénarios d’utilisation d’un ordinateur.

Pour les développeurs, ces performances sont surtout pertinentes pour les workflows agentiques, le traitement automatisé de documents visuels et les tests d’assurance qualité. Au sein d’un même workflow, Fable 5 peut potentiellement analyser une interface, exécuter des actions, extraire des informations et vérifier le comportement d’une application.

Claude Fable 5 vs Gemini 3.1, GPT-5.5 et Grok 4 : Quel modèle choisir ?

Comparaison des prix

Modèle	Entrée pour 1M de tokens	Sortie pour 1M de tokens	Fenêtre de contexte
Gemini 3.1 Pro	2 $	12 $	1,0M tokens
Grok 4	3 $	15 $	256K tokens
GPT-5.5	5 $	30 $	1,1M tokens
Claude Fable 5	10 $	50 $	1M+ tokens

Comparatif des prix : Claude Fable 5 vs Gemini 3.1 Pro, GPT-5.5 et Grok 4

Claude Fable 5 est le modèle le plus cher de ce comparatif, avec un tarif de 10 $ par million de tokens en entrée et de 50 $ par million de tokens en sortie. Ce niveau de prix se justifie plus facilement pour les agents de programmation, l’analyse de grandes bases de code et les workflows d’utilisation d’un ordinateur, où une meilleure fiabilité peut réduire le nombre de nouvelles tentatives, les échecs d’exécution et le temps consacré à la supervision humaine.

Gemini 3.1 Pro propose le tarif API le plus bas, avec 2 $ par million de tokens en entrée et 12 $ par million de tokens en sortie, tout en obtenant le meilleur score sur GPQA Diamond. Il représente donc le meilleur rapport coût-performance pour le raisonnement scientifique, l’analyse documentaire et les workloads à fort volume qui ne nécessitent pas l’avantage de Fable 5 en programmation autonome.

Grok 4 se situe entre Gemini 3.1 Pro et GPT-5.5 en matière de prix. Avec 3 $ par million de tokens en entrée, 15 $ en sortie et un score d’environ 75 % sur SWE-Bench Pro, il peut offrir le meilleur compromis pour les tâches de programmation sensibles aux coûts.

GPT-5.5 coûte 5 $ par million de tokens en entrée et 30 $ par million de tokens en sortie, mais reste derrière Claude Fable 5 et Grok 4 sur SWE-Bench Pro. Sa pertinence dépendra donc davantage de l’adéquation avec le cas d’usage, des exigences liées à l’écosystème technique et des résultats obtenus lors de tests en production que de ses seules performances sur les benchmarks de programmation.

La taille de la fenêtre de contexte influence également le coût total. Claude Fable 5, GPT-5.5 et Gemini 3.1 Pro prennent en charge environ un million de tokens, tandis que Grok 4 est limité à 256 000 tokens. Cette limite peut obliger les équipes à diviser les documents volumineux ou les grandes bases de code en plusieurs requêtes, ce qui augmente la complexité du workflow et peut réduire les économies réalisées sur le prix par token.

Pricing comparison

Model	Input per 1M tokens	Output per 1M tokens	Context window
Gemini 3.1 Pro	$2	$12	1.0M tokens
Grok 4	$3	$15	256K tokens
GPT-5.5	$5	$30	1.1M tokens
Claude Fable 5	$10	$50	1M+ tokens

Accédez à Claude Fable 5, Gemini 3.1 Pro, GPT-5.5 et Grok 4 depuis une seule API

Eden AI permet aux développeurs d’accéder à Claude Fable 5, GPT-5.5, Gemini 3.1 Pro, Grok 4 et à des centaines d’autres modèles depuis une API REST unifiée.

Il suffit de modifier le paramètre du modèle pour changer de fournisseur, sans avoir à maintenir plusieurs intégrations, comptes fournisseurs ou clés API. Cette approche simplifie considérablement les tests, le déploiement et la gestion des modèles d’IA en production.

import os
import requests

MODELS = [
    "anthropic/claude-fable-5",
    "google/gemini-3.1-pro-preview",
    "openai/gpt-5.5",
    "xai/grok-4",
]

PROMPT = "Hello world !. Can you tell me a joke ?"

for model in MODELS:
    response = requests.post(
        "https://api.edenai.run/v3/chat/completions",
        headers={
            "Authorization": f"Bearer {os.environ['EDENAI_API_KEY']}",
            "Content-Type": "application/json",
        },
        json={
            "model": model,
            "messages": [
                {
                    "role": "user",
                    "content": PROMPT,
                }
            ],
        },
        timeout=60,
    )

    print(f"\n{'=' * 60}\nMODEL: {model}\n{'=' * 60}")
    try:
        response.raise_for_status()
        print(response.json()["choices"][0]["message"]["content"])
    except requests.HTTPError as e:
        print(f"Error: {e}\n{response.text}")

‍

Eden AI est particulièrement adapté au benchmarking multi-modèles, car la plateforme permet de :

Comparer les modèles sur vos propres prompts et données, plutôt que de vous appuyer uniquement sur des benchmarks publiés.
Configurer un routage de secours automatique lorsqu’un modèle ou un fournisseur est indisponible.
Gérer une seule facture et une seule clé API pour l’ensemble des fournisseurs pris en charge.

FAQ sur les benchmarks de Claude Fable 5

Claude Fable 5 obtient 80,3 % sur SWE-Bench Pro, contre 58,6 % pour GPT-5.5 et 54,2 % pour Gemini 3.1 Pro. Cela donne à Fable 5 une avance de 21,7 points sur GPT-5.5 et de 26,1 points sur Gemini sur ce benchmark de codage centré sur Python.

Oui. Claude Fable 5 est disponible sous l'identifiant de modèle claude-fable-5 via l'API Claude, AWS Bedrock et GitHub Copilot. Les développeurs peuvent également y accéder aux côtés de GPT-5.5, Gemini 3.1 Pro et Grok 4 via l'API Chat d'Eden AI avec une seule clé API.

Claude Fable 5 coûte 10 $ par million de tokens en entrée et 50 $ par million de tokens en sortie. Son prix est inférieur à celui de Claude Mythos Preview, rendant ses capacités de codage et agentiques plus accessibles pour les charges de travail en production, tout en restant plus coûteux que les modèles de gamme intermédiaire typiques.

Sur SWE-Bench Pro, oui. Claude Fable 5 obtient 80,3 %, contre 58,6 % pour GPT-5.5, ce qui suggère de meilleures performances pour la résolution de problèmes au niveau des dépôts. Cependant, SWE-Bench Pro se concentre sur Python, les résultats peuvent donc varier selon les langages, les frameworks et les environnements de production.

Oui. Gemini 3.1 Pro mène GPQA Diamond avec 94,3 %, tandis que Claude Fable 5 obtient 91,3 %. Pour les charges de travail de raisonnement scientifique de niveau doctoral et spécialisées, Gemini 3.1 Pro a un léger avantage sur les benchmarks.

Claude Fable 5 prend en charge une fenêtre de contexte de plus d'un million de tokens. Cela permet aux développeurs de traiter une grande base de code, une documentation étendue ou plusieurs rapports longs dans une seule requête, bien que les limites pratiques dépendent également de la structure des fichiers et des exigences de sortie.

Oui. L'outil de comparaison de modèles IA d'Eden AI vous permet de tester plusieurs modèles avec les mêmes prompts et données de production. Cela offre une base plus fiable pour la sélection de modèles que de se fier uniquement aux benchmarks publics.

Claude Fable 5 est le modèle de classe Mythos en version générale, avec des garde-fous de sécurité conçus pour une utilisation standard en production. Claude Mythos 5 est réservé aux chercheurs autorisés en cybersécurité et en biomédecine et fournit un accès avec certains garde-fous levés. Pour le développement d'applications générales, vous pouvez tester Claude Fable 5 et le comparer avec d'autres modèles de pointe via Eden AI.

Dernière mise à jour leJune 11, 2026

Samy Melaine

Samy Melaine is the CTPO and co-founder of Eden AI. He brings a technical perspective shaped by technical development, AI/ML engineering, and a clear focus on production-grade AI systems. His work is centered on giving developers better ways to access, evaluate, and deploy AI models at scale, with an emphasis on speed, usability, and real implementation value.