Chaque requête au bon modèle, automatiquement
Définissez des règles par coût, latence ou contexte. Latenza évalue chaque appel en temps réel et sélectionne le provider optimal — sans changer une ligne dans votre code applicatif.
- Atout
- 4 providers unifiés
- Atout
- Règles illimitées
- Atout
- <5 ms d’overhead
{
"route": "/api/chat",
"strategy": "cost",
"targets": [
{ "provider": "mistral", "model": "mistral-large" },
{ "provider": "openai", "model": "gpt-4o" }
],
"fallback": "latency",
"max_context_switch": "claude-3-5-sonnet"
}Ce que ça change
Routing multi-provider, en pratique.
Routing par coût
Privilégiez le provider le moins cher capable de servir la requête, modèle par modèle.
Routing par latence
Envoyez les requêtes sensibles au provider le plus rapide selon ses p95 mesurés en continu.
Routing par contexte
Basculez automatiquement vers un modèle à grand contexte quand le prompt dépasse un seuil.
Règles personnalisées
Combinez critères, poids et fallbacks en cascade via l’interface ou l’API de configuration.
Comment ça marche
Une règle de routing, en clair
- 1Connectez vos providersAjoutez vos clés OpenAI, Anthropic, Mistral, Google en quelques clics depuis le dashboard.
- 2Définissez vos règlesChoisissez vos critères de routing et l’ordre des fallbacks par route ou par modèle.
- 3Latenza route chaque appelVotre code appelle une seule API compatible OpenAI — Latenza s’occupe du reste.
Déclarez vos critères une fois. Latenza applique la décision à chaque appel, avec fallback en cascade.
{
"route": "/api/chat",
"strategy": "cost",
"targets": [
{ "provider": "mistral", "model": "mistral-large" },
{ "provider": "openai", "model": "gpt-4o" }
],
"fallback": "latency",
"max_context_switch": "claude-3-5-sonnet"
}Explorez les autres fonctionnalités
Failover automatique
Panne OpenAI, quota Anthropic dépassé, timeout réseau ? La requête bascule sur le provider suivant en moins de 100 ms. Vos utilisateurs ne voient jamais l’incident.
Caching sémantique
Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.
Observabilité
Latence p50/p95/p99, tokens consommés, coût par requête — découpés par assistant, feature ou équipe. Alertes de dérive budgétaire en temps réel. Fini les mauvaises surprises en fin de mois.
Rate limiting
Quota par clé API, par organisation ou par modèle. Protégez votre budget, évitez les abus et garantissez un service équitable entre vos équipes — le tout configuré en quelques clics.