Notre API publique vous permet d'intégrer l'état de la plateforme LLMaaS directement dans vos applications et dashboards de monitoring. Toutes les réponses sont au format JSON.
Sommaire
Endpoints
Récupérer l'état de santé global de la plateforme et la liste des modèles en échec.
Statut Global
Exemple de réponse
{
"status": "operational",
"updated_at": "2026-04-03T10:30:00.000Z",
"message": "Platform is operational",
"stats": {
"total_models": 48,
"operational_models": 48
},
"failed_models": []
}Exemple en cas d'incident :
Statut Global (Degraded)
Exemple de réponse
{
"status": "degraded",
"updated_at": "2026-04-03T10:30:00.000Z",
"message": "Platform is degraded",
"stats": {
"total_models": 48,
"operational_models": 42
},
"failed_models": [
"cogito:32b",
"ministral-3:8b"
]
}Obtenir les métriques détaillées (TTFB, débit, etc.) pour un modèle spécifique.
Paramètres
| Paramètre | Type | Requis | Description |
|---|---|---|---|
| model | string | oui | Identifiant du modèle (ex: llama3.3:70b) |
Détail Modèle
Exemple de réponse
{
"id": "llama3.3:70b",
"name": "llama3.3:70b",
"type": "chat",
"ok": true,
"http_status": 200,
"ttfb_ms": 120,
"duration_ms": 4500,
"usage": {
"prompt_tokens": 50,
"completion_tokens": 128,
"total_tokens": 178
},
"tokens_per_sec": 55.5,
"chunks_count": 128,
"error": null,
"tested_at": "2026-04-03T10:25:00.000Z",
"updated_at": "2026-04-03T10:30:00.000Z"
}Récupérer l'état complet de tous les modèles supervisés avec leurs métriques détaillées (TTFB, durée, débit, tokens).
État complet
Exemple de réponse
{
"updated_at": "2026-04-03T10:30:00.000Z",
"global_status": "operational",
"models": [
{
"id": "llama3.3:70b",
"name": "llama3.3:70b",
"type": "chat",
"aliases": [
"llama3.3:70b"
],
"ok": true,
"http_status": 200,
"ttfb_ms": 120,
"duration_ms": 4500,
"usage": {
"prompt_tokens": 50,
"completion_tokens": 128,
"total_tokens": 178
},
"tokens_per_sec": 55.5,
"chunks_count": 128,
"error": null,
"tested_at": "2026-04-03T10:25:00.000Z"
},
"// ... (un objet par modèle supervisé)"
]
}Obtenir les statistiques d'uptime et de performance pour chaque modèle sur une période donnée. Inclut les min/max/moyenne de TTFB, durée et débit.
Paramètres
| Paramètre | Type | Requis | Description |
|---|---|---|---|
| start_date | string (ISO 8601) | non | Début de la période (défaut : 4h avant maintenant) |
| end_date | string (ISO 8601) | non | Fin de la période (défaut : maintenant) |
Statistiques
Exemple de réponse
{
"period": {
"from": "2026-04-03T06:30:00.000Z",
"to": "2026-04-03T10:30:00.000Z",
"snapshots_count": 48
},
"models": [
{
"id": "llama3.3:70b",
"name": "llama3.3:70b",
"uptime_percent": 100,
"total_checks": 48,
"successful_checks": 48,
"failed_checks": 0,
"ttfb_stats": {
"min": 95,
"max": 450,
"avg": 180.5
},
"duration_stats": {
"min": 2100,
"max": 6800,
"avg": 4200.3
},
"tokens_per_sec_stats": {
"min": 42.1,
"max": 68.3,
"avg": 55.2
},
"timeline": [
"// ... série temporelle"
]
}
]
}Récupérer la série temporelle des mesures d'un modèle spécifique. Utile pour construire des graphiques de performance.
Paramètres
| Paramètre | Type | Requis | Description |
|---|---|---|---|
| model_id | string | oui | Identifiant du modèle |
| start_date | string (ISO 8601) | non | Début de la période (ISO 8601) |
| end_date | string (ISO 8601) | non | Fin de la période (ISO 8601) |
| max_points | integer | non | Nombre max de points retournés (défaut : 1000, min : 50, max : 5000) |
Timeline d'un modèle
Exemple de réponse
{
"model_id": "llama3.3:70b",
"timeline": [
{
"timestamp": "2026-04-03T06:30:00.000Z",
"ok": true,
"ttfb_ms": 120,
"duration_ms": 4500,
"tokens_per_sec": 55.5,
"error": null
},
{
"timestamp": "2026-04-03T06:35:00.000Z",
"ok": true,
"ttfb_ms": 135,
"duration_ms": 4200,
"tokens_per_sec": 58.1,
"error": null
},
"// ... (1 point par cycle de vérification)"
]
}Récupérer le dernier snapshot historique complet avec l'état de chaque modèle. Utile pour les comparaisons avant/après.
Historique des snapshots
Exemple de réponse
{
"snapshots": [
{
"updated_at": "2026-04-03T10:30:00.000Z",
"global_status": "operational",
"models": [
{
"id": "llama3.3:70b",
"name": "llama3.3:70b",
"type": "chat",
"ok": true,
"http_status": 200,
"ttfb_ms": 120,
"duration_ms": 4500,
"tokens_per_sec": 55.5,
"error": null,
"tested_at": "2026-04-03T10:25:00.000Z"
},
"// ... tous les modèles"
]
}
]
}Se connecter au flux Server-Sent Events pour recevoir les mises à jour de statut en temps réel. Chaque événement contient l'état complet de la plateforme.
Flux temps réel (SSE)
Connexion persistante. Le serveur envoie un événement à chaque nouveau cycle de vérification (~5 min).
Exemple de réponse
// Connexion SSE
const evtSource = new EventSource(
"https://llmaas.status.cloud-temple.app/api/stream"
);
evtSource.onmessage = (event) => {
const data = JSON.parse(event.data);
console.log("Status:", data.global_status);
console.log("Models:", data.models.length);
};
// Format des événements reçus :
// data: {"updated_at":"...","global_status":"operational","models":[...]}