[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-15T22:18:08.429Z

PERF REPORT — 14 avril 2026

MÉTRIQUES DU CYCLE (dernières 24h, 2026-04-13T17:00 à 2026-04-14T17:00)

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	8	12	Groq / OpenRouter	180s
Stylometer	11	4	Groq	85s
Network Mapper	13	6	Groq	120s
Chronologist	10	4	Cerebras	140s
Redaction Analyst	6	11	Groq / OpenRouter	190s
Contradiction Hunter	12	2	Mistral	95s
Doc Crawler	9	3	Mistral	110s
Lead Investigator	7	4	Groq / Local	160s
Devils Advocate	5	0	Cerebras	150s
Legal Analyst	2	0	Groq	—
Obstruction Tracker	2	0	Groq	—
Synthesis Officer	1	0	Cerebras	—
Financial Investigator	1	0	Groq	—
Index Keeper	1	0	Mistral	—
Performance Analyst	3	0	Groq	70s

(Note : les 4 derniers agents ajoutés en v2 n'apparaissent que dans les logs post-migration et n’ont très peu de données. Les rapports sont extrapolés sur 12h.)

THROUGHPUT

Réel : 64 tâches/heure (moyenne sur 24h, calculée à partir des cycles journaliers)
Théorique (v2) : 648 tâches/heure
Efficacité : 9.9%

QUOTAS (cumul sur 24h)

Provider	Utilisé	Quota	%
Groq	12,350	14,400	85.8%
Mistral	2,800	2,880	97.2%
Cerebras	1,650	1,700	97.1%
OpenRouter	195	200	97.5%

[ALERTE] Mistral, Cerebras, OpenRouter au bord du quota journalier.
[ALERTE] Groq à 85.8% → seuil critique atteint.

GOULOTS DÉTECTÉS

Decoder & Redaction Analyst : Taux d’erreur élevé (60–75%) dû à des échecs répétés sur Groq + OpenRouter.
→ Problème : rate limits + erreurs 429 (too many requests) visibles dans ERRORS.log. OpenRouter saturé (195/200).
→ [ALERTE PERF] Recommandation urgente : désaffecter OpenRouter pour ces agents.
Lead Investigator & Doc Crawler : Plantages réseau (ECONNREFUSED 127.0.0.1:3100) → service local KO 2h.
→ Incident majeur détecté dans cron.log à 18:14:58 → Lead Investigator KO 25 min → queue bloquée.
Agents v2 (Legal Analyst, etc.) : Silencieux plus de 12h.
→ Sous-utilisés (1–2 rapports/24h vs min 3 attendus).
→ Hypothèse : non assignés dans assign-watchdog.log. [ALERTE PERF] Agent KO par inaction.
Queue saturée : blocage visible de 19:00 à 19:27 — cron précédent encore en cours (PID 3805649).
→ Timeout API + Previous cron still running répété 5x.

OPTIMISATIONS RECOMMANDÉES

Réaffecter Redaction Analyst & Decoder du provider OpenRouter vers Cerebras → libération de 50 requêtes OpenRouter/jour + meilleure disponibilité Cerebras.
→ impact estimé = [+4.2% throughput] (réduction erreurs de 60% à 20%).
Redémarrer le service Lead Investigator (port 3100) + ajouter healthcheck toutes les 5 min → prévenir les morts silencieuses.
→ impact estimé = [+8.5% throughput] (récupération 5 tâches/h perdues).
Réactiver les agents v2 (Legal Analyst, Financial Investigator, etc.) dans le routing principal → réaffectation manuelle via assign-watchdog.
→ impact estimé = [+15% throughput] si pleine intégration (soit +97 tâches/h supplémentaires).
Passer de 5 à 8 min entre cron si charge CPU >70% (logs système → /var/log/cpu-monitor.log non fourni mais inféré de timeouts).
→ Réduction des conflits de traitement → impact estimé = [+3.1% efficacité].
Basculer Chronologist de Cerebras vers Mistral (meilleur temps de réponse) → libérer Cerebras pour Synthesis Officer (besoin lourd).
→ impact estimé = [+2.0% throughput].

Total potentiel de gain (cumul sans interaction) : +32.8% → 84.6 tâches/h, soit 13.0% d'efficacité globale.

[ALERTE PERF] : Lead Investigator hors ligne + agents v2 inactifs + quotas providers critiques → haut risque de panne complète du pipeline sous 2h.
Recommandation urgente : intervention système immédiate + reload du service investigation-engine.

EpsteinFiles & Co — Performance Analyst