Science
IA Générative
8 min de lecture

Comment réduire les coûts des API LLM de 82 % grâce au Smart Routing

Résumez cet article avec :

Résumé
  • Lors du benchmark, le Smart Routing a permis de réduire les coûts des API LLM de 82 % par rapport à l’utilisation systématique de GPT-5.1 pour chaque requête. Cette baisse significative des dépenses s’est accompagnée d’une diminution moyenne de la qualité de seulement 0,08 point.
  • La principale source de dépenses inutiles vient du fait que de nombreuses applications envoient les requêtes simples et complexes vers le même modèle premium. Une stratégie de routage intelligent permet au contraire de sélectionner automatiquement le modèle le plus adapté à la complexité de chaque tâche, sans mobiliser un modèle coûteux lorsque cela n’est pas nécessaire.
  • Avec un volume de 50 000 requêtes par jour, les résultats moyens du benchmark correspondent à un coût mensuel d’environ 3 309 $ avec GPT-5.1, contre seulement 581 $ avec le Smart Routing.
  • Des économies supplémentaires peuvent être obtenues en combinant le routage intelligent avec la mise en cache des prompts, les fallbacks entre fournisseurs et les API batch. Ces mécanismes permettent respectivement de réduire le coût des entrées répétées, d’éviter les nouvelles tentatives inutiles en cas d’échec et de diminuer le coût de traitement des requêtes asynchrones.

La plupart des équipes envoient toutes leurs requêtes vers le même modèle premium, quel que soit leur niveau de complexité. À mesure que le trafic augmente, cette approche fait rapidement grimper les coûts des API LLM, alors qu’une grande partie des prompts pourrait être traitée efficacement par des modèles moins coûteux.

Notre benchmark le démontre : le Smart Routing a réduit les coûts des API LLM de 82 % par rapport à GPT-5.1, avec une baisse de la qualité moyenne limitée à 0,08 point.

Pour obtenir ces résultats, nous avons comparé trois stratégies de routage sur cinq types de tâches. Chaque tâche a été exécutée trois fois, puis les résultats ont été moyennés afin de garantir une comparaison plus fiable des coûts et de la qualité.

Stratégie Coût total Qualité moy. Temps de réponse total Idéal pour
Smart RoutingEden AI 0,001935 $ 9,40 / 10 32,68 s Charges de travail mixtes simples et complexes
GPT-5.1 uniquement 0,011030 $ 9,48 / 10 19,03 s Charges de travail axées sur la qualité, où le coût est secondaire
Gemini Flash 2.0 uniquement 0,000601 $ 15,06 s Tâches simples prévisibles à fort volume

Pourquoi utiliser un seul modèle pour toutes les requêtes augmente les coûts des API LLM

Vos coûts liés aux LLM n’augmentent probablement pas parce que chaque requête est complexe. Ils augmentent parce que votre application traite toutes les requêtes comme si elles l’étaient.

Dans la plupart des systèmes en production, tous les prompts sont envoyés vers le même modèle premium. Une requête comme « Liste trois frameworks Python » est ainsi traitée par le même modèle qu’une demande telle que « Conçois l’architecture de base de données d’un SaaS multi-tenant ».

La première tâche nécessite seulement des connaissances générales et quelques tokens de sortie. La seconde exige davantage de raisonnement, un contexte plus riche et une meilleure capacité à suivre des instructions complexes. Pourtant, les deux requêtes sont facturées selon les mêmes tarifs du modèle premium.

Requête simple Requête complexe
« Lister trois frameworks Python » « Concevoir un schéma de base de données SaaS multi-tenant »
Rappel de base Raisonnement en plusieurs étapes
Réponse courte Réponse détaillée
Un modèle économique peut suffire Un modèle premium peut être justifié

Cette approche crée un problème d’efficacité souvent invisible. Les requêtes simples représentent généralement une part importante du trafic en production. De faibles dépenses inutiles finissent donc par s’accumuler sur des milliers, voire des millions d’appels API.

Les prompts plus longs, l’augmentation de la taille des historiques de conversation, les nouvelles tentatives après un échec et les réponses trop détaillées creusent encore davantage cet écart de coûts.

Un modèle premium peut produire d’excellents résultats. Cela ne signifie pas pour autant que toutes ses capacités sont nécessaires pour chaque tâche. L’utiliser par défaut revient à déployer votre serveur le plus puissant pour chaque charge de travail, y compris les plus simples.

La solution ne consiste pas à sacrifier la qualité en remplaçant systématiquement les modèles premium par des modèles moins chers. Elle consiste à router chaque requête vers le modèle le moins coûteux capable de la traiter de manière fiable. C’est sur ce principe que repose le Smart Routing des LLM.

Comment le Smart Routing sélectionne le bon modèle LLM

Le Smart Routing ajoute une couche de décision entre votre application et l’API du modèle. Avant que la requête ne soit envoyée à un LLM, un classificateur analyse le prompt afin d’en estimer le niveau de difficulté.

Cette analyse peut s’appuyer sur plusieurs critères :

  • le type de tâche ;
  • le niveau de raisonnement requis ;
  • la longueur du contexte ;
  • les contraintes de formatage ;
  • la complexité attendue de la réponse.

En pratique, le processus de routage intelligent reste simple :

Prompt → Classification de la complexité → Sélection du modèle → Réponse

Le Smart Routing ne sélectionne pas automatiquement un modèle parmi tous les LLM disponibles sur le marché. Votre équipe définit en amont un ensemble de modèles candidats ainsi que les conditions dans lesquelles chacun peut être utilisé.

Cette configuration peut notamment inclure :

  • les modèles et fournisseurs autorisés ;
  • les limites de prix ;
  • les seuils de capacité requis ;
  • les règles de fallback.

Vous gardez ainsi le contrôle sur les modèles pouvant être sélectionnés, les coûts maximums autorisés et les critères de routage appliqués à chaque requête.

Il est également possible de configurer des mécanismes de fallback. Lorsqu’un fournisseur rencontre une erreur, atteint une limite de requêtes ou que le niveau de confiance de la classification est insuffisant, la requête peut être automatiquement redirigée vers un modèle de secours.

Benchmark : GPT-5.1 vs Gemini Flash vs Smart Routing

Nous avons comparé trois stratégies d’utilisation des LLM sur cinq types de tâches :

  • GPT-5.1 utilisé seul ;
  • Gemini 2.0 Flash utilisé seul ;
  • le Smart Routing, basé sur un classificateur de complexité à plusieurs niveaux.

Chaque tâche a été exécutée trois fois, puis les résultats ont été moyennés afin de comparer plus fiablement les coûts, la qualité et la latence.

Paramètres du benchmark : Les tests ont été réalisés avec la température par défaut de chaque modèle, sans prompt système et avec une limite définie à max_tokens = 600. Le temps de réponse mesuré correspondait à la latence de bout en bout. Il incluait donc le traitement de la requête par le modèle ainsi que l’éventuelle surcharge liée au routage via Eden AI.

Avant chaque appel, un classificateur par mots-clés exécuté côté client catégorisait le prompt comme simple ou complexe.

Les tâches simples étaient envoyées vers GPT-4.1-nano, tandis que la génération de code, l’analyse, la conception de schémas, les prompts longs et les autres tâches complexes étaient routés vers GPT-4.1-mini. Comme le classificateur fonctionnait directement côté client, il n’ajoutait aucune latence de routage.

Le routeur pouvait sélectionner dix modèles répartis entre deux niveaux de capacité, notamment des modèles GPT, Claude et Mistral. Durant ce benchmark, seuls GPT-4.1-nano et GPT-4.1-mini ont été retenus. Les autres modèles restaient néanmoins disponibles comme solutions de fallback.

Limites du benchmark :

Ce test interne portait sur un nombre limité de tâches. Il ne doit donc pas être considéré comme une évaluation universelle des performances des différents modèles LLM.

Une classification fondée sur des mots-clés peut également mal catégoriser certains cas particuliers. Un ensemble de tâches plus large et plus diversifié permettrait d’obtenir une vision plus représentative de la sélection des modèles, des coûts, de la qualité et de la latence.

Résultats des coûts : GPT-5.1 vs Gemini Flash vs Smart Routing

Tâche Acheminé vers Gemini Flash 2.0 Smart Routing GPT-5.1
Question factuelle GPT-4.1-nano 0,000026 $ 0,000586 $
Énumération courte GPT-4.1-nano 0,000049 $ 0,000032 $ 0,000921 $
Génération de code GPT-4.1-mini 0,000243 $ 0,000642 $ 0,003220 $
Rédaction de sonnet GPT-4.1-mini 0,000066 $ 0,000259 $ 0,001427 $
Conception de schéma de BDD GPT-4.1-mini 0,000243 $ 0,000976 $ 0,004876 $
Total 0,000601 $ 0,001935 $ 0,011030 $

À l’échelle de la production, même une faible différence de coût par requête peut rapidement devenir significative. D’après les moyennes observées pendant le benchmark, un volume de 10 000 requêtes par jour représenterait un coût mensuel d’environ :

  • 662 $ avec GPT-5.1 ;
  • 116 $ avec le Smart Routing.

Avec 50 000 requêtes par jour, le coût mensuel estimé atteindrait :

  • 3 309 $ avec GPT-5.1 ;
  • 581 $ avec le Smart Routing.

Ces estimations reposent sur 30 jours de trafic et sur un coût moyen de 0,002206 $ par requête avec GPT-5.1, contre 0,000387 $ avec le Smart Routing. Le Smart Routing permet ainsi d’obtenir un coût par requête inférieur de 82 %, en sélectionnant un modèle adapté à la complexité réelle de chaque tâche plutôt qu’en utilisant systématiquement un modèle premium.

Résultats sur le temps de réponse et la latence : GPT-5.1 vs Gemini Flash vs Smart Routing

Tâche Acheminé vers Gemini Flash 2.0 Smart Routing GPT-5.1
Question factuelle GPT-4.1-nano Limité en débit ¹ 1,99 s 1,75 s
Énumération courte GPT-4.1-nano 2,25 s 2,21 s 2,33 s
Génération de code GPT-4.1-mini 5,21 s 11,06 s 4,36 s
Rédaction de sonnet GPT-4.1-mini 2,48 s 4,05 s 3,83 s
Conception de schéma de BDD GPT-4.1-mini 5,12 s 13,37 s 6,76 s
Temps de réponse cumulé 15,06 s ² 32,68 s 19,03 s

¹ Gemini Flash 2.0 a été limité en débit lors du test de la question factuelle. ² Le temps cumulé exclut ce test limité en débit.

Résultats sur la qualité des réponses : GPT-5.1 vs Gemini Flash vs Smart Routing

Tâche Acheminé vers Gemini Flash 2.0 Smart Routing GPT-5.1
Question factuelle GPT-4.1-nano 10 / 10 10 / 10
Énumération courte GPT-4.1-nano 10 / 10 10 / 10 10 / 10
Génération de code GPT-4.1-mini 8,7 / 10 10 / 10 10 / 10
Rédaction de sonnet GPT-4.1-mini 9,0 / 10 9,3 / 10 9,7 / 10
Conception de schéma de BDD GPT-4.1-mini 6,0 / 10 7,7 / 10 7,7 / 10
Score de qualité moyen 9,4 / 10 9,48 / 10

Quelle stratégie LLM choisir selon votre charge de travail ?

La stratégie la plus adaptée dépend moins du volume total de requêtes que de la variation de leur niveau de complexité.

Pour une charge de travail mixte, composée de requêtes simples et complexes, le Smart Routing est généralement la meilleure option. Il dirige les prompts peu complexes vers des modèles moins coûteux et réserve les modèles premium aux tâches qui nécessitent un raisonnement plus avancé.

Dans notre benchmark interne, cette approche a permis de réduire les coûts de 82 % par rapport à l’utilisation systématique de GPT-5.1, tout en maintenant l’écart de qualité moyenne sous les 0,1 point.

Pour les charges de travail à fort volume constituées uniquement de tâches simples, il est préférable de router directement les requêtes vers un modèle économique, comme Gemini Flash. Lorsque le type de tâche est prévisible et que le modèle moins coûteux respecte systématiquement votre seuil de qualité, l’ajout d’un classificateur de complexité entraîne des coûts et une complexité opérationnelle inutiles.

Pour les charges de travail composées exclusivement de tâches complexes, utilisez directement un modèle premium. Lorsque presque toutes les requêtes nécessitent un raisonnement avancé, de la génération de code ou un respect strict des instructions, le routeur sélectionnera de toute façon le modèle premium dans la majorité des cas. Dans cette situation, l’étape de classification devient un coût supplémentaire sans générer d’économies significatives.

Votre charge de travail Meilleure approche Pourquoi
La qualité avant tout, le coût n'est pas un problème GPT-5.1 Meilleure sortie sur tous les types de tâches
Tâches mixtes simples et complexes Smart Routing par niveauxEden AI 82 % moins cher que GPT-5.1, avec une différence de qualité inférieure à 0,1 point
Uniquement des tâches simples à grande échelle Gemini Flash 2.0 Même qualité que le Smart Routing sur les tâches simples, à environ 15× moins cher
Uniquement des tâches complexes GPT-4.1 directement Même qualité que le Smart Routing, sans la surcharge du classificateur

Si la qualité est votre seule priorité et que le coût ne constitue pas une contrainte, vous pouvez envoyer toutes vos requêtes à GPT-5.1. Ce modèle a obtenu le meilleur score moyen de notre benchmark. Toutefois, l’écart reste faible : GPT-5.1 n’a obtenu que 0,08 point de plus que le Smart Routing, pour un coût 5,7 fois supérieur.

Comment mettre en place le Smart Routing avec Eden AI

Définissez le paramètre model sur @edenai pour activer la couche de routage intelligent d’Eden AI, au lieu de sélectionner directement un modèle spécifique. Le paramètre router_candidates permet de définir précisément la liste des modèles que le routeur est autorisé à analyser et à sélectionner pour chaque requête.

import requests

response = requests.post(
    "https://api.edenai.run/v2/llm/chat/completions",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "@edenai",
        "router_candidates": [
            "openai/gpt-4.1-nano",
            "openai/gpt-4.1-mini",
            "google/gemini-2.0-flash"
        ],
        "messages": [
            {"role": "user", "content": "Your prompt here"}
        ],
        "max_tokens": 600
    }
)

data = response.json()
print("Model selected:", data.get("model"))
print("Response:", data["choices"][0]["message"]["content"])

Votre application continue d’appeler un seul endpoint de chat completion. Eden AI analyse le prompt, sélectionne le modèle le plus adapté parmi les candidats configurés, puis renvoie le modèle choisi dans la réponse, avec le contenu généré.

Vous pouvez ainsi modifier la liste des modèles disponibles pour le routage sans changer le reste de la structure de votre requête.

Trois leviers supplémentaires pour réduire les coûts des LLM

Le Smart Routing constitue généralement le principal levier d’optimisation, car il adapte la puissance du modèle à la complexité réelle de chaque requête. Une fois le routage intelligent mis en place, trois techniques complémentaires permettent de réduire davantage les coûts des API LLM : la mise en cache des prompts, les fallbacks entre fournisseurs et le traitement par lots.

Technique Quand l'utiliser Impact potentiel
Mise en cache des prompts Lorsque les requêtes réutilisent le même prompt système, un long contexte ou une structure d'entrée répétée 50 à 90 % d'économies sur les entrées mises en cache éligibles
Basculements fournisseur Lorsque la fiabilité, les limites de débit et les erreurs fournisseur sont critiques en production Moins de requêtes échouées et moins de nouvelles tentatives inutiles
API par lots Lorsque les utilisateurs n'ont pas besoin d'une réponse immédiate Jusqu'à 50 % de réduction sur les charges de travail asynchrones

Mise en cache des prompts

La mise en cache des prompts est particulièrement efficace lorsque de nombreuses requêtes contiennent un même bloc d’entrée volumineux. Il peut s’agir d’un prompt système, d’une documentation produit, d’un manuel de procédures, du début d’une longue conversation ou d’un ensemble d’instructions fixes.

Prenons l’exemple d’un assistant de support qui inclut la même base de connaissances de 8 000 tokens dans chaque requête. Sans cache, le fournisseur traite et facture ces tokens à chaque appel. Avec la mise en cache, ce préfixe répétitif peut être réutilisé et facturé à un tarif inférieur. Selon le fournisseur et la nature de la charge de travail, le coût des entrées éligibles mises en cache peut diminuer de 50 à 90 %.

Pour améliorer le taux d’utilisation du cache, placez le contenu stable au début du prompt et les données variables de l’utilisateur à la fin. Les fournisseurs mettent généralement en cache les préfixes identiques. Une petite modification au début du prompt peut donc empêcher la réutilisation du cache.

Surveillez notamment le taux de cache hit, la durée d’expiration, le nombre minimum de tokens requis et les éventuels frais liés à l’écriture du cache. Cette technique est surtout rentable lorsque les prompts restent stables sur un grand nombre de requêtes.

Fallbacks entre fournisseurs

Les fallbacks entre fournisseurs protègent l’expérience utilisateur lorsque le modèle principal est indisponible, trop lent ou soumis à une limitation de débit. Au lieu de renvoyer une erreur, l’application redirige automatiquement la requête vers un modèle de secours.

Prenons le cas d’un workflow d’extraction de documents utilisant un fournisseur principal. Lorsque celui-ci dépasse le délai d’attente, relancer plusieurs fois la même requête augmente la latence et peut générer des appels supplémentaires facturables. Un fallback permet de rediriger la requête vers un autre modèle compatible et de terminer le traitement sans obliger l’utilisateur à soumettre à nouveau son document.

L’économie provient principalement de la réduction des tentatives inutiles et des workflows interrompus. Les fallbacks rendent également les dépenses plus prévisibles, car chaque erreur suit un scénario de récupération défini.

Choisissez des modèles de secours disposant de limites de contexte, de formats de sortie et de capacités de génération structurée compatibles. Définissez précisément les délais d’attente et le nombre de nouvelles tentatives autorisées. Évitez également de changer de fournisseur après une simple variation ponctuelle de latence.

Il est important de suivre la fréquence d’activation des fallbacks, le fournisseur qui termine réellement la requête et la capacité du modèle de secours à respecter le niveau de qualité attendu.

API batch et traitement par lots

Les API batch sont conçues pour les traitements dont le résultat n’est pas nécessaire immédiatement. Elles conviennent notamment au traitement de documents, à l’enrichissement de données CRM, à la classification de tickets de support, aux évaluations de modèles, à la génération de rapports et aux mises à jour massives de données.

Au lieu d’envoyer chaque requête individuellement vers une API en temps réel, l’application les regroupe dans un traitement asynchrone. Le fournisseur exécute ensuite le lot dans un délai plus long, en appliquant un tarif inférieur. OpenAI et Anthropic proposent une réduction de 50 % sur les requêtes batch éligibles.

Une approche efficace consiste à conserver les interactions visibles par l’utilisateur sur des endpoints en temps réel, tout en transférant les traitements en arrière-plan vers une API batch. Par exemple, un utilisateur peut importer des documents pendant la journée, tandis que leur extraction et leur classification sont exécutées pendant la nuit.

Avant l’implémentation, vérifiez la taille maximale des lots, les formats de fichiers acceptés, les délais de traitement et la durée de conservation des résultats. Attribuez également un identifiant unique à chaque requête afin de pouvoir associer correctement chaque résultat à son entrée d’origine.

Enfin, prévoyez une gestion des échecs partiels afin d’éviter de relancer l’intégralité d’un lot lorsqu’une seule requête échoue.

FAQ : réduire les coûts des API LLM de 82 % grâce au Smart Routing

Le smart routing est une méthode permettant de sélectionner le modèle de langage le plus approprié pour chaque requête, en fonction de critères tels que la complexité de la tâche, la longueur du contexte, les exigences de latence et le coût.

Les requêtes simples peuvent être envoyées vers des modèles moins coûteux, tandis que les tâches nécessitant un raisonnement plus poussé peuvent être acheminées vers des modèles plus performants. Cela réduit l'utilisation inutile des modèles premium sans appliquer le même compromis de qualité à chaque requête.

Le smart routing réduit les coûts des API LLM en associant chaque requête au modèle le moins cher capable de la traiter de manière fiable. Par exemple, une tâche de classification courte peut être gérée par un petit modèle, tandis que la conception de bases de données ou la génération de code peut nécessiter un modèle plus avancé.

Les économies dépendent de la composition du trafic, des tarifs des modèles, de la longueur des prompts, de la longueur des sorties et de la précision du système de routage dans la classification de chaque requête.

Le smart routing ne provoque pas nécessairement une réduction significative de la qualité lorsque les règles de routage sont correctement configurées. Le système peut réserver les modèles premium pour les requêtes complexes et utiliser des modèles moins coûteux uniquement pour les tâches qu'ils peuvent gérer de manière constante.

Les équipes doivent définir des seuils de qualité, tester des prompts de production représentatifs et surveiller les résultats par type de tâche. La mauvaise classification reste un risque : les requêtes à faible niveau de confiance doivent être acheminées vers un modèle plus puissant ou un chemin de secours.

La mise en cache des prompts, les basculements fournisseur et les API par lots peuvent être combinés avec le smart routing. La mise en cache réduit le coût des prompts système répétés ou des longs contextes partagés. Les basculements fournisseur éliminent les nouvelles tentatives inutiles lorsqu'un modèle expire ou atteint une limite de débit.

Les API par lots réduisent les coûts pour les charges de travail asynchrones telles que le traitement de documents, les évaluations et l'enrichissement de données. OpenAI et Anthropic offrent des réductions de 50 % pour les requêtes par lots éligibles.

Les équipes doivent commencer par un pool limité de modèles et définir des critères de routage basés sur le type de tâche, la complexité, la longueur du contexte, la latence et le format de sortie requis. Chaque modèle sélectionné doit être testé sur des requêtes représentatives avant de recevoir du trafic en production.

L'implémentation doit inclure des seuils de confiance, des délais d'expiration, des limites de nouvelles tentatives, des basculements fournisseur et la journalisation du modèle sélectionné, du coût, de la latence et du résultat de qualité pour chaque requête.

COMMENCEZ

Commencez à créer avec Eden AI

Une interface unique pour intégrer les meilleures technologies d’IA dans vos flux de travail.