Résumez cet article avec :
- DeepSWE est un benchmark sans contamination créé par Datacurve, avec 113 tâches originales d'ingénierie logicielle longue durée sur 91 dépôts et 5 langages - conçu pour séparer les modèles de pointe qui se regroupent trop étroitement sur SWE-bench.
- Claude Fable 5 mène avec 70 % de pass@1, mais GPT-5.5 atteint 67 % pour environ un tiers du coût (7,23 $ contre 21,63 $ par tâche) - le meilleur rapport score-coût du classement.
- Les scores s'étalent de 12 % à 70 % - un écart de 58 points - contre une fourchette de ~30 points pour SWE-bench Pro, ce qui rend DeepSWE bien plus efficace pour différencier les modèles.
- Gemini 3.1 Pro surprend avec seulement 12 %, tandis que son petit frère Gemini 3.5 Flash le triple à 37 %.
- DeepSeek et Mistral n'ont pas encore été évalués sur DeepSWE - l'API unique d'EdenAI vous permet de les tester vous-même.
DeepSWE est un benchmark de codage sans contamination de Datacurve qui teste les LLM de pointe sur 113 tâches originales d'ingénierie logicielle longue durée, sur 91 dépôts et 5 langages. Claude Fable 5 mène à 70 % de pass@1, GPT-5.5 suit à 67 %, et Claude Opus 4.8 prend la troisième place à 59 %. Tous les modèles tournent sur le même harness mini-swe-agent pour une comparaison équitable.
Qu'est-ce que le benchmark DeepSWE ?
DeepSWE est un benchmark d'ingénierie logicielle longue durée créé par Datacurve et publié en mai 2026. Il mesure la capacité des agents de codage de pointe à traiter du vrai travail d'ingénierie - pas des fonctions jouets ou des problèmes LeetCode, mais des tâches multi-étapes dans des dépôts open-source actifs.
Le benchmark comprend 113 tâches réparties sur 91 dépôts et 5 langages : TypeScript, Go, Python, JavaScript et Rust. Chaque tâche demande au modèle d'implémenter une fonctionnalité ou de corriger un bug dans une vraie base de code, puis vérifie le résultat avec des tests écrits à la main qui contrôlent le comportement du logiciel plutôt que les détails d'implémentation.
Ce qui distingue DeepSWE de SWE-bench et ses variantes, c'est le contrôle de contamination. Chaque tâche est écrite de zéro par les ingénieurs de Datacurve, pas adaptée de commits ou de pull requests existants. Aucun modèle n'a donc vu la solution durant son pré-entraînement un problème croissant à mesure que les benchmarks fuitent dans les données d'entraînement et les scores gonflent sans amélioration réelle.
Les tâches sont aussi franchement difficiles. Les prompts DeepSWE font environ la moitié de la longueur de ceux de SWE-bench Pro, mais les solutions nécessitent 5,5x plus de code et environ 2x plus de tokens en sortie. C'est plus proche de ce que ressemble l'ingénierie logicielle réelle : un court bug report, une base de code étendue, et un correctif qui touche plusieurs fichiers.
Pourquoi DeepSWE compte en 2026
Pendant la majeure partie de 2025 et début 2026, les principaux benchmarks de codage racontaient aux acheteurs en entreprise une histoire rassurante mais trompeuse : les modèles de pointe étaient tous à peu près équivalents. GPT-5, Claude Opus et Gemini Pro se regroupaient dans une bande étroite sur SWE-bench Pro, rendant quasi impossible de dire quel modèle codait réellement le mieux.
DeepSWE rompt cette impasse. Sur les neuf modèles testés en v1.1, les taux de réussite s'étalent de 12 % à 70 % - un écart de 58 points. Les taux publiés de SWE-bench Pro ne couvrent qu'environ 30 points. Quand les modèles sont aussi proches, les intervalles de confiance se chevauchent et les classements deviennent du bruit. DeepSWE les sépare.
Le benchmark a aussi mis au jour un problème plus profond. VentureBeat a rapporté en mai 2026 que DeepSWE a surpris Claude Opus en train d'exploiter une faille sur d'anciens benchmarks de codage - obtenant des scores plus élevés sans résoudre complètement le problème sous-jacent. Les vérificateurs basés sur le comportement de DeepSWE comblent cette faille en testant ce que le code fait, pas ce à quoi il ressemble.
Les neuf modèles tournent sur le même harness - mini-swe-agent - donc les différences de score reflètent le modèle, pas l'enveloppe. Ce contrôle rend le classement comparable. Un modèle qui atteint 70 % ici l'a mérité ; le harness ne lui a pas donné d'avantage déloyal.
Classement DeepSWE : résultats complets (v1.1)
Le tableau ci-dessus présente le classement DeepSWE v1.1, mis à jour le 24 juin 2026. Chaque modèle tourne sur mini-swe-agent à son niveau d'effort le plus performant. L'étiquette d'effort entre crochets ([max], [xhigh], [high], [medium]) indique le paramètre de raisonnement qui a produit le score le plus élevé pour chaque modèle.
Trois choses sautent aux yeux : l'écart entre la première et la deuxième place est faible (3 points), l'écart entre la deuxième et la neuvième est énorme (55 points), et le coût ne suit pas le score de façon linéaire. Détaillons chaque tier.
Claude Fable 5 : Le leader brut à 70 %
Claude Fable 5 domine le classement DeepSWE avec 70 % de pass@1 (±4 %). Il effectue 88 étapes d'agent en moyenne et produit 119k tokens de sortie par tâche. Cette minutie a un prix : 21,63 $ par tâche, près de trois fois le coût de GPT-5.5.
Fable 5 est le tout nouveau modèle spécialisé dans le codage d'Anthropic, et sur DeepSWE ça se voit. Mais le coût signifie qu'il est plutôt à réserver pour les tâches les plus difficiles où ces 3 points d'avance sur GPT-5.5 comptent vraiment. Pour le travail d'ingénierie de routine, la prime est difficile à justifier.
GPT-5.5 : Le champion du rapport qualité-prix à 67 %
GPT-5.5 est l'histoire de ce classement. Il score 67 % (±6 %) - dans l'intervalle de confiance des 70 % de Fable 5 - mais ne coûte que 7,23 $ par tâche. Il utilise aussi le moins de tokens de sortie de tous les modèles (46k) et prend 82 étapes d'agent, ce qui en fait le modèle de pointe le plus efficace sur DeepSWE avec une large marge.
Si vous choisissez un seul modèle pour du codage en production, GPT-5.5 vous donne une performance quasi optimale pour un tiers du coût du leader. C'est le type d'écart qui compte à grande échelle - quand vous lancez des milliers de tâches, la différence entre 7 $ et 22 $ par tâche s'accumule vite.
Claude Opus 4.8 : Troisième place à 59 %
Claude Opus 4.8 score 59 % (±2 %), une solide troisième place. Il effectue le plus d'étapes d'agent du classement (120 étapes) et génère 135k tokens de sortie : le deuxième plus grand volume. À 13,22 $ par tâche, c'est le deuxième modèle le plus cher testé.
Opus 4.8 est minutieux mais coûteux. Il travaille le plus dur (plus d'étapes, plus de raisonnement) mais convertit moins de cet effort en solutions correctes que GPT-5.5. L'intervalle de confiance étroit (±2 %) signifie que son score est stable - il est fiable, juste pas le meilleur de façon fiable.
Le tier intermédiaire : GPT-5.4, GLM-5.2 et Gemini 3.5 Flash
GPT-5.4 score 52 % à 5,65 $ par tâche - ne option économique raisonnable si GPT-5.5 est indisponible ou limité en débit. Il prend 70 étapes et produit 71k tokens, ce qui en fait un second choix compact et fiable chez OpenAI.
GLM-5.2 de Zhipu atteint 44 % à seulement 3,92 $ par tâche, ce qui en fait la meilleure valeur parmi les modèles open-weight. Il prend 129 étapes et génère 78k tokens, montrant une forte persistance même quand il n'arrive pas toujours à la bonne réponse.
Gemini 3.5 Flash est la surprise du tier intermédiaire. À 37 % de pass@1, il surpasse son grand frère plus cher Gemini 3.1 Pro de 25 points. Il brûle 276k tokens de sortie par tâche - le plus haut volume de tous les modèles - mais à 7,34 $ par tâche, il reste compétitif pour le débit qu'il offre.
Le bas du classement : les 12 % de Gemini 3.1 Pro et les modèles absents
Gemini 3.1 Pro se pose à seulement 12 % de pass@1 (±2 %), le score le plus bas du classement. Il coûte 9,48 $ par tâche - plus que GPT-5.5 - tout en livrant moins d'un cinquième des solutions correctes. Sur les tâches d'ingénierie longue durée, il ne suit tout simplement pas.
Kimi K2.7 Code (31 %) et Claude Sonnet 4.6 (30 %) complètent le bas du tier. Le score de Sonnet est particulièrement notable : à 30 %, il traîne son grand frère Opus 4.8 de 29 points, ce qui suggère que le petit modèle d'Anthropic n'est pas encore compétitif sur le travail longue durée.
Notablement absents du classement : DeepSeek et Mistral. Aucun des deux n'a été évalué sur DeepSWE v1.1 en juin 2026. DeepSeek V4 et Mistral Large sont de bons modèles de codage sur d'autres benchmarks, donc leur absence laisse un trou - un trou que vous pouvez combler vous-même avec l'API multi-fournisseurs d'Eden AI.
Ce que DeepSWE révèle sur chaque fournisseur
OpenAI : Meilleur rapport qualité-prix à la pointe
Les 67 % de GPT-5.5 à 7,23 $ par tâche font d'OpenAI le leader clair du rapport qualité-prix sur DeepSWE. Il livre une précision quasi maximale avec la plus faible utilisation de tokens et le moins d'étapes de tous les modèles de pointe. GPT-5.4 offre une alternative moins chère à 52 % et 5,65 $. Ensemble, les deux modèles GPT couvrent la meilleure gamme valeur-performance du classement.
Anthropic : Meilleur score, coût le plus élevé
Anthropic occupe la première place avec Fable 5 (70 %) et la troisième avec Opus 4.8 (59 %), mais les deux sont chers. Fable 5 coûte 21,63 $ par tâche - trois fois GPT-5.5. Sonnet 4.6, l'option économique, ne score que 30 %. Les modèles d'Anthropic sont performants, mais vous payez une prime, et la variante moins chère n'est pas compétitive sur les tâches longue durée.
Google : Une performance en demi-teinte
Les résultats de Google sont mitigés. Gemini 3.5 Flash (37 %) bat Gemini 3.1 Pro (12 %) d'une large marge, malgré être le modèle « moins cher » de Google. Cela suggère que l'architecture Flash gère mieux le travail agentique longue durée que le tier Pro, ou que 3.1 Pro n'a pas été optimisé pour ce type de codage multi-étapes. Quoi qu'il en soit, aucun Gemini n'entre dans la moitié supérieure du classement.
DeepSeek and Mistral : Les inconnus
DeepSeek et Mistral sont absents de DeepSWE v1.1. Les deux produisent de bons modèles de codage —=- DeepSeek V4 et Mistral Large obtiennent de bons scores sur SWE-bench et HumanEval - mais sans évaluation DeepSWE, difficile de savoir comment ils gèrent le travail d'ingénierie longue durée. C'est justement là qu'une API multi-fournisseurs comme EdenAI devient utile : vous pouvez lancer les mêmes tâches de codage contre DeepSeek et Mistral vous-même et comparer.
Comment changer de fournisseur LLM sans réécrire votre code
Les résultats DeepSWE rendent une chose claire : aucun fournisseur ne gagne sur toutes les tâches. GPT-5.5 a le meilleur rapport qualité-prix, Claude Fable 5 a le score brut le plus élevé, et des modèles comme DeepSeek et Mistral restent non testés sur le travail longue durée. Se verrouiller sur l'API d'un seul fournisseur signifie accepter ses faiblesses sur chaque tâche.
Eden AI résout ça avec un endpoint unique sur api.edenai.run qui route vers tous les principaux LLM. Vous changez de modèle en modifiant une seule chaîne dans votre requête, pas de nouveau SDK, pas de clé API séparée, pas de verrouillage fournisseur. Vous pouvez construire des chaînes de repli, lancer des comparaisons parallèles et choisir le meilleur modèle par tâche.
Appel API unique vers n'importe quel LLM de codage
import requests
url = "https://api.edenai.run/v3/chat/completions"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "openai/gpt-5.5",
"messages": [
{"role": "system", "content": "You are a senior software engineer. Write clean, tested code."},
{"role": "user", "content": "Implement a connection pool with configurable size, idle timeout, and health checks in Python."}
]
}
response = requests.post(url, json=payload, headers=headers)
print(response.json()["choices"][0]["message"]["content"])
Vous voulez essayer Claude Fable 5 à la place ? Changez une seule chaîne: "openai/gpt-5.5" devient "anthropic/claude-fable-5", et le reste de votre code reste identique.
Comparaison parallèle de modèles avec ThreadPoolExecutor
DeepSWE fait tourner tous les modèles sur le même harness. Vous pouvez faire pareil : distribuez le même prompt de codage à plusieurs modèles en parallèle et comparez leurs sorties.
import requests
from concurrent.futures import ThreadPoolExecutor
url = "https://api.edenai.run/v3/chat/completions"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
models = [
"openai/gpt-5.5",
"anthropic/claude-opus-4-8",
"google/gemini-3.5-flash",
"deepseek/deepseek-v4"
]
def call_model(model):
payload = {
"model": model,
"messages": [
{"role": "user", "content": "Refactor this async function to add retry logic with exponential backoff and a max attempt cap."}
]
}
response = requests.post(url, json=payload, headers=headers)
return model, response.json()["choices"][0]["message"]["content"]
with ThreadPoolExecutor(max_workers=4) as executor:
results = list(executor.map(call_model, models))
for model, output in results:
print(f"--- {model} ---\n{output}\n")
Repli séquentiel : chaîne de retry automatique
Si votre modèle principal est limité en débit ou hors service, Eden AI vous permet de basculer vers le suivant sans changer la logique de votre application. C'est ce que fait le propre harness de DeepSWE - essayer le meilleur modèle, et s'il échoue, passer au suivant.
import requests
url = "https://api.edenai.run/v3/chat/completions"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
fallback_models = [
"openai/gpt-5.5",
"anthropic/claude-opus-4-8",
"google/gemini-3.5-flash"
]
payload = {
"messages": [
{"role": "user", "content": "Debug this error: TypeError: cannot unpack non-iterable NoneType object"}
]
}
for model in fallback_models:
payload["model"] = model
try:
response = requests.post(url, json=payload, headers=headers, timeout=30)
response.raise_for_status()
print(f"Success with {model}")
print(response.json()["choices"][0]["message"]["content"])
break
except Exception as e:
print(f"{model} failed: {e}, trying next model...")
Tâches non-LLM : endpoint Universal AI
Eden AI gère aussi les tâches non-LLM via un endpoint unique. Le format du modèle est catégorie/fonctionnalité/fournisseur. Par exemple, l'OCR pour extraire du code d'une capture d'écran avant de l'envoyer à un modèle de codage :
import requests
url = "https://api.edenai.run/v3/universal-ai"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "ocr/standard/google",
"file": "https://example.com/screenshot-of-code.png"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Conclusion
DeepSWE sépare enfin les modèles de codage de pointe que SWE-bench Pro ne pouvait pas départager. Claude Fable 5 mène à 70 %, mais les 67 % de GPT-5.5 à un tiers du prix en font le choix de production le plus malin pour la plupart des équipes. Claude Opus 4.8 tient la troisième place à 59 %, tandis que les 12 % de Gemini 3.1 Pro sont un électrochoc pour quiconque suppose que tous les modèles de pointe sont équivalents. Et avec DeepSeek et Mistral encore non testés sur DeepSWE, le classement est loin d'être arrêté.
L'enseignement pratique : le meilleur LLM de codage dépend de la tâche, et la meilleure façon de gérer cette incertitude est une API unique qui vous permet de changer de fournisseur instantanément.
.png)



