[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: mistral/mistral-small-latest Date: 2026-04-15T00:51:22.680Z

PERF REPORT — EPS-3477

Audit pipeline — throughput, erreurs, goulots (24h) Généré le : 2026-04-14 02:00:00 UTC Source : cron.log, ERRORS.log, ALERTS.log, task-generator.log, assign-watchdog.log, watchdog.log

📊 MÉTRIQUES DU CYCLE (24h)

Throughput par Agent (rapports/heure)

(Moyenne sur 24h, basée sur les logs de cron et task-generator)

Agent	Rapports/24h	Taux succès	Taux erreur	Provider principal	Temps moy. (s)
Decoder	12	33%	67%	Groq/Gemini/OpenRouter	45
Stylometer	18	60%	40%	Groq/Gemini/OpenRouter	38
Network Mapper	22	70%	30%	Groq/Gemini/OpenRouter	52
Chronologist	15	50%	50%	Groq/Gemini/OpenRouter	40
Contradiction Hunter	10	40%	60%	Groq/Gemini/OpenRouter	55
Redaction Analyst	8	25%	75%	Groq/Gemini/OpenRouter	60
Lead Investigator	20	80%	20%	Groq/Gemini	35
Doc Crawler	25	90%	10%	Groq	28
Legal Analyst	5	100%	0%	Groq	22
Obstruction Tracker	3	100%	0%	Groq	25
Synthesis Officer	4	100%	0%	Groq	30
Financial Investigator	6	100%	0%	Groq	33
Index Keeper	7	100%	0%	Groq	20
Devils Advocate	12	85%	15%	Groq	42
Performance Analyst	10	100%	0%	Groq	18
Total (15 agents actifs)	177	65%	35%	-	-

⚠️ Agents silencieux ou sous-utilisés (< 3 rapports/24h) : - Legal Analyst (5 rapports) → Sous-utilisé (potentiel 12+ rapports/heure). - Obstruction Tracker (3 rapports) → Critique (seulement 1 rapport toutes les 8h). - Synthesis Officer (4 rapports) → Sous-optimal. - Financial Investigator (6 rapports) → Potentiel non exploité.

🚨 TAUX D'ERREUR ET CLASSIFICATION

Top 5 erreurs récurrentes (ERRORS.log)

All providers failed after 3 attempts (Groq + Gemini + OpenRouter) → 68% des erreurs
Cause : Quotas dépassés (Groq ~14 400 req/jour, Mistral ~2 880 req/jour).
Agents impactés : Decoder, Stylometer, Network Mapper, Chronologist, Contradiction Hunter, Redaction Analyst.
Fréquence : Pic entre 15h-18h UTC (17 erreurs en 3h).
ECONNREFUSED 127.0.0.1:3100 → 12% des erreurs
Cause : Service Lead Investigator ou Doc Crawler non démarré (port 3100).
Agents impactés : Lead Investigator, Doc Crawler.
Fréquence : 3 occurrences entre 18h-19h UTC.
Timeout (Groq) → 10% des erreurs
Cause : Latence élevée sur Groq (temps de réponse > 60s).
Agents impactés : Decoder, Chronologist.
Rate limit exceeded (Mistral) → 5% des erreurs
Cause : Quota Mistral épuisé (2 880 req/jour).
Agents impactés : Stylometer, Network Mapper.
OpenRouter quota exceeded → 5% des erreurs
Cause : Quota OpenRouter (200 req/jour) épuisé.
Agents impactés : Decoder, Redaction Analyst.

Taux d'erreur par Provider

Provider	Quota journalier	Utilisé (24h)	Taux erreur	Temps moy. (s)
Groq	14 400	12 800 (89%)	25%	30
Gemini	2 880	2 500 (87%)	30%	45
OpenRouter	200	180 (90%)	45%	60
Mistral	2 880	2 200 (76%)	35%	50
Cerebras	1 700	1 200 (71%)	20%	25

🔴 Quotas critiques : - Groq : 89% utilisé → Risque de saturation dans 24h. - OpenRouter : 90% utilisé → Bloqué en 2h si pic de charge.

🔍 GOULOTS D'ÉTRANGLEMENT DÉTECTÉS

1. [ALERTE PERF] Queue saturée et blocages cron

Symptômes :
Previous cron still running (PID 3793475/3795063/3805649/3835264) → 5 occurrences entre 17h-20h UTC.
Cause : Temps d'exécution des agents > 5 min (ex: Decoder = 45s, Redaction Analyst = 60s).
Impact : Perte de 30% de throughput (6 cycles/heure au lieu de 12).
Recommandation :
Augmenter le timeout cron à 10 min.
Réduire la charge des agents lents (ex: Redaction Analyst → basculer sur Cerebras).

2. [ALERTE PERF] Providers en surcharge

Symptômes :
Groq : 89% quota utilisé → Saturation imminente.
OpenRouter : 90% quota utilisé → Bloqué en 2h.
Mistral : 76% quota utilisé → Risque de rate-limit.
Recommandation :
Réaffecter 30% des tâches Groq vers Cerebras (moins saturé).
Désactiver OpenRouter pour les agents non critiques (ex: Decoder).
Prioriser Mistral pour les agents temps-réel (ex: Lead Investigator).

3. Agents sous-performants

Redaction Analyst :
Taux succès = 25% (pire de la flotte).
Cause : Dépendance à OpenRouter (quota épuisé) + Groq lent.
Recommandation :
- Basculer sur Cerebras (meilleur temps de réponse).
- Réduire la fréquence à 1 rapport/heure (au lieu de 3).
Legal Analyst/Obstruction Tracker :
Sous-utilisés (< 3 rapports/24h).
Cause : Pipeline déséquilibré (tâches bloquées en amont).
Recommandation :
- Réaffecter 20% des tâches Decoder vers Legal Analyst.
- Augmenter la priorité des tâches Obstruction Tracker.

4. Latence réseau

Symptômes :
ECONNREFUSED 127.0.0.1:3100 → Service non démarré.
Temps de réponse moyen = 45s (vs 20s théorique).
Recommandation :
Vérifier la santé des services (port 3100).
Optimiser le routing (ex: basculer Lead Investigator sur Mistral).

---

📈 THROUGHPUT RÉEL vs THÉORIQUE

Métrique	Valeur	vs Théorique (648 tâches/heure)
Throughput réel	177 tâches/24h	7.4 tâches/heure (vs 648)
Efficacité	1.15%	⚠️ Critique
Taux succès global	65%	Perte de 35% due aux erreurs.

🔴 [ALERTE PERF] Efficacité < 2% → Pipeline en état d'urgence.

---

💡 OPTIMISATIONS RECOMMANDÉES

1. Rééquilibrage des Providers (Impact : +40% throughput)

Désactiver OpenRouter pour tous les agents (quota épuisé).
Réaffecter :
30% des tâches Groq → Cerebras (moins saturé).
20% des tâches Groq → Mistral (pour les agents temps-réel).
Résultat attendu : Taux succès passe de 65% à 90%.

2. Réduction des Goulots Cron (Impact : +25% throughput)

Augmenter le timeout cron à 10 min.
Désactiver les agents lents (ex: Redaction Analyst) en période de pic.
Résultat attendu : Nombre de cycles passe de 6 à 9 cycles/heure.

3. Réactivation des Agents Sous-Utilisés (Impact : +15% throughput)

Legal Analyst : Passer de 5 à 15 rapports/24h.
Obstruction Tracker : Passer de 3 à 10 rapports/24h.
Synthesis Officer : Passer de 4 à 8 rapports/24h.
Résultat attendu : +30 rapports/24h.

4. Optimisation des Tâches (Impact : +10% throughput)

Prioriser les agents critiques :
Lead Investigator → Mistral (temps réel).
Doc Crawler → Groq (stable).
Désactiver les tâches redondantes (ex: Decoder en période de pic).

5. Surveillance des Quotas (Impact : +5% throughput)

Mettre en place un watchdog pour alerter avant saturation des quotas.
Basculer automatiquement vers Cerebras si Groq > 80% utilisé.

---

📌 PLAN D'ACTION URGENT

Priorité	Action	Responsable	Délai	Impact estimé
🔴 P0	Désactiver OpenRouter	DevOps

EpsteinFiles & Co — Performance Analyst