Résumez cet article avec :
Lilac est maintenant intégré comme fournisseur sur Eden AI, apportant à la plateforme une inférence LLM plus économique grâce à une API compatible avec le standard OpenAI. Soutenu par YC, Lilac a développé une infrastructure qui route les requêtes vers des capacités GPU d’entreprise sous-utilisées, permettant aux développeurs d’accéder à une infrastructure d’inférence déjà chaude, sans les coûts liés à la réservation de capacité.
Les équipes peuvent désormais utiliser Kimi K2.6, MiniMax M2.7, GLM 5.1 et Gemma 4 directement depuis Eden AI. Cette intégration offre aux développeurs plus de choix de modèles, des coûts d’inférence réduits et un accès à de nouveaux LLMs sans nouvelle intégration technique.
Qu’est-ce que Lilac ?
Lilac est une startup d’inférence soutenue par Y Combinator S25, qui développe une façon plus économique de servir des grands modèles de langage. Son API d’inférence route les requêtes vers des clusters GPU d’entreprise sous-utilisés, dont la capacité fonctionne souvent en dessous de son plein potentiel. Les développeurs bénéficient ainsi d’un accès compatible OpenAI à l’inférence LLM, sans cold starts ni surcoût lié à la réservation de capacité.
Contrairement à Groq, Together, ou Fireworks, Lilac ne repose pas uniquement sur une infrastructure d’inférence dédiée. Son approche s’appuie sur l’idle GPU inference, qui transforme la capacité de calcul existante des entreprises en une couche de serving distribuée. Cela permet de réduire les coûts tout en maintenant une latence prévisible et une tarification simple, avec un accès au paiement à l’usage par token à partir de 5 $.
.png)
Notre interview avec le CEO de Lilac
Pour mieux comprendre ce que Lilac apporte aux développeurs, Lucas Ewing, CEO de Lilac, partage sa vision de la mission de l’entreprise, de son offre de modèles et de son approche d’infrastructure. Dans l’interview ci-dessous, il explique comment Lilac rend l’inférence IA plus économique, ce qui différencie sa couche de routage, et comment l’intégration avec Eden AI simplifie l’accès aux développeurs.
Pouvez-vous présenter Lilac et sa mission ?
Lilac construit une infrastructure d’inférence plus économique pour les grands modèles de langage. Sa mission est de rendre l’inférence IA haute performance plus accessible et plus abordable, en utilisant des capacités GPU déjà déployées mais sous-utilisées.
De nombreux clusters GPU d’entreprise restent inactifs à différents moments de la journée. Lilac connecte cette capacité disponible aux développeurs qui ont besoin d’une inférence fiable, afin de réduire le gaspillage de ressources de calcul tout en diminuant le coût des workloads IA.
Pouvez-vous détailler votre offre, vos modèles et ce qui les rend uniques ?
Lilac propose une inférence hébergée pour des modèles de langage open-weight, notamment Kimi, GLM et Gemma. Ces modèles couvrent les workloads développeurs les plus courants, comme la génération de texte, le raisonnement, le code, l’utilisation d’outils, les sorties structurées, les agents IA et les applications à long contexte.
Ce qui différencie Lilac, c’est la couche de routage située derrière l’API. Au lieu de servir chaque requête depuis un déploiement fixe unique, Lilac route le trafic vers une flotte distribuée de GPU d’entreprise. Cela permet d’orienter les utilisateurs vers des GPU proches et opérationnels pour réduire la latence, tout en répartissant la charge sur un plus grand pool de capacité déjà chaude pour améliorer le débit moyen. Comme ces GPU fonctionnent déjà dans des environnements d’entreprise, Lilac peut proposer une inférence à l’usage, sans demander aux clients de réserver ou gérer une infrastructure dédiée.
Quels sont vos utilisateurs ou clients cibles ?
Lilac s’adresse aux développeurs et aux équipes qui exécutent des workloads LLM en production et qui accordent de l’importance au coût, à la latence et à la simplicité. Les utilisateurs typiques incluent les développeurs d’applications IA, les créateurs d’agents, les éditeurs d’outils pour développeurs, les équipes de recherche, les équipes d’automatisation du support et les entreprises qui ajoutent des fonctionnalités LLM à leurs produits existants.
Lilac est particulièrement utile pour les équipes qui veulent accéder à des modèles open-weight performants sans construire ni opérer leur propre stack de serving GPU.
Pourquoi avoir intégré Lilac à Eden AI ?
Eden AI offre aux développeurs un point d’accès unique pour utiliser plusieurs fournisseurs d’IA et choisir le bon provider pour chaque workload. L’intégration avec Eden AI permet aux développeurs de tester Lilac plus facilement, sans modifier leur stratégie multi-fournisseurs ni construire une intégration séparée.
Pour Lilac, ce partenariat est cohérent, car de nombreux utilisateurs d’Eden AI comparent déjà les fournisseurs selon le prix, la latence et la couverture de modèles. Lilac ajoute une option supplémentaire pour les équipes qui recherchent une inférence LLM sensible aux coûts, soutenue par une capacité GPU distribuée.
.png)
Quelle est la suite pour Lilac ? Quels sont vos projets et votre vision à long terme ?
Notre priorité est d’élargir la couverture de modèles, d’améliorer les performances de routage et de développer le réseau de GPU distribué derrière Lilac. Nous prévoyons de prendre en charge davantage de modèles open-weight à forte valeur d’usage, d’optimiser le routage en fonction de la latence, et d’offrir aux développeurs une meilleure visibilité sur les performances, les prix et la disponibilité des modèles.
À plus long terme, notre vision est de faire de la capacité GPU sous-utilisée une composante standard de l’infrastructure IA. Nous pensons qu’une grande quantité de puissance de calcul est déjà déployée, mais pas pleinement exploitée. Un meilleur routage peut rendre cette capacité utile aux développeurs, tout en créant de nouvelles opportunités de revenus pour les propriétaires de GPU.
Quels modèles sont désormais disponibles via Lilac sur Eden AI ?
Kimi K2.6 API
Kimi K2.6, développé par Moonshot AI, est un modèle Mixture-of-Experts de 1T de paramètres, avec 32B de paramètres activés et une fenêtre de contexte de 262K tokens. Disponible via Lilac sur Eden AI, il prend en charge les entrées texte et image, le raisonnement activé par défaut, l’utilisation d’outils et les sorties structurées.
Son tarif commence à 0,70 $ par million de tokens en entrée et 3,50 $ par million de tokens en sortie.
MiniMax M2.7 API
MiniMax M2.7 API st un modèle text-only conçu pour le raisonnement long contexte et les workflows IA économiques. Il prend en charge une fenêtre de contexte de 205K tokens, l’inférence FP8, le raisonnement, l’utilisation d’outils et les sorties structurées.
Parmi les quatre modèles Lilac disponibles sur Eden AI, MiniMax M2.7 propose le prix d’entrée le plus bas, à 0,30 $ par million de tokens en entrée et 1,20 $ par million de tokens en sortie.
GLM 5.1 API
GLM 5.1, développé par Z.ai et Zhipu, est un modèle Mixture-of-Experts de 754B de paramètres, avec une fenêtre de contexte de 203K tokens. L’API GLM 5.1 est particulièrement adaptée aux tâches de code, aux agents logiciels et aux workflows agentiques nécessitant un bon suivi des instructions, l’utilisation d’outils et des sorties structurées.
Via Lilac sur Eden AI, son tarif est de 0,90 $ par million de tokens en entrée et 3,00 $ par million de tokens en sortie.
Gemma 4 31B API
Gemma 4 31B API permet aux développeurs d’accéder au modèle open-weight 31B de Google via Lilac sur Eden AI. Il prend en charge une fenêtre de contexte de 262K tokens et des entrées multimodales en texte, image et vidéo, ce qui reste encore rare via un accès API standard.
C’est aussi l’option multimodale la plus économique de cette sélection, avec un tarif de 0,11 $ par million de tokens en entrée et 0,35 $ par million de tokens en sortie.
Voyons maintenant comment choisir le bon modèle Lilac selon votre workload, votre besoin en contexte, les modalités à traiter et votre budget.
Quel modèle Lilac choisir ?
Meilleur raisonnement à prix intermédiaire : Kimi K2.6
Choisissez Kimi K2.6 pour les tâches de raisonnement complexe, les pipelines agentiques et les cas d’usage multimodaux combinant texte et image. Le raisonnement est activé par défaut, et sa fenêtre de contexte de 262K tokens permet de traiter de grandes bases de code, de longs documents ou des workflows multi-étapes sans découpage excessif.
Gros volumes de texte au coût le plus bas : MiniMax M2.7
Choisissez MiniMax M2.7 pour les pipelines texte en production où le coût est le critère principal. Avec 0,30 $ par million de tokens en entrée, il offre le prix d’entrée le plus bas parmi les quatre modèles, tout en prenant en charge le raisonnement, l’utilisation d’outils et les sorties structurées.
Génération de code et tâches agentiques : GLM 5.1
Choisissez GLM 5.1 pour la génération de code, les agents multi-étapes et les workflows d’ingénierie qui dépendent d’une utilisation fiable des outils. Son architecture Mixture-of-Experts de 754B de paramètres et ses performances solides sur les benchmarks de code en font le meilleur choix pour les workloads orientés développement ou agents IA.
Compréhension image ou vidéo à faible coût : Gemma 4 31B
Choisissez Gemma 4 31B pour les pipelines multimodaux qui nécessitent de la compréhension d’image et de vidéo via API. C’est le seul modèle de cette sélection à prendre en charge les frames vidéo, et avec 0,11 $ par million de tokens en entrée, c’est également l’option la moins chère au global.
Comment accéder à ces modèles sur Eden AI ?
L’accès aux modèles Lilac sur Eden AI ne nécessite aucune nouvelle intégration : ils fonctionnent via l’API unifiée existante d’Eden AI.
- Créez gratuitement un compte Eden AI et récupérez votre clé API
- Sélectionnez un modèle Lilac dans le playground Eden AI, comme Kimi K2.6, MiniMax M2.7, GLM 5.1 ou Gemma 4, ou passez directement l’ID du modèle dans votre appel API.
- Appelez l’API avec le SDK compatible OpenAI. Si vous utilisez déjà Eden AI, aucun changement de code n’est nécessaire, à part la sélection du modèle Lilac.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["EDEN_AI_API_KEY"],
base_url="https://api.edenai.run/v3/llm/openai"
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{
"role": "user",
"content": "Hello, what can you do?"
}
]
)
print(response.choices[0].message.content)
Conclusion
Les modèles Lilac sont désormais disponibles sur Eden AI : Kimi K2.6, MiniMax M2.7, GLM 5.1 et Gemma 4 31B. Cette intégration donne aux développeurs plus de choix de modèles, des coûts d’inférence réduits et un accès direct via l’intégration Eden AI qu’ils utilisent déjà.

.jpg)
