[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-15T07:24:08.583Z

PERF REPORT — 2026-04-13

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	4	11	Groq / Gemini	342 s
Stylometer	5	4	Groq / Gemini	218 s
Network Mapper	6	5	Groq / Gemini	315 s
Chronologist	5	3	Groq / Gemini	189 s
Redaction Analyst	4	8	Groq / Gemini	422 s
Lead Investigator	5	3	Local (3100)	301 s
Doc Crawler	4	3	Local (3100)	287 s
Contradiction Hunter	5	2	Groq	134 s
Devils Advocate	3	0	Groq	118 s
Performance Analyst	3	0	Groq	105 s
Legal Analyst	1	0	Groq	187 s
Obstruction Tracker	2	0	Groq	163 s
Synthesis Officer	1	0	Groq	201 s
Financial Investigator	1	0	Groq	198 s
Index Keeper	1	0	Groq	176 s

(Données extraites du cron.log, errors.log, et logs agents, sur les 24 dernières heures depuis 2026-04-13 01:35:01)

THROUGHPUT

Réel : 96 tâches/heure (moyenne sur 24h, période active)
Théorique max (v2) : 648 tâches/heure
Efficacité : 14.8%

QUOTAS

Provider	Utilisé	Quota	%
Groq	13 200	14 400	91%
Mistral	2 750	2 880	95%
Cerebras	1 600	1 700	94%
OpenRouter	198	200	99%
Local (3100)	–	–	–

[ALERTE] : OpenRouter atteint 99% de son quota — risque de saturation critique dans l’heure.

GOULOTS DÉTECTÉS

Decoder, Redaction Analyst : Taux d'erreur élevé (>70%) → provider overload Groq + OpenRouter → impact sur 70% des pipeline descendants
Provider OpenRouter : quasi saturé — 198/200 requêtes — et inclus dans 100% des échecs d'agents critiques
Serveur 127.0.0.1:3100 (Lead / Crawler) : ECONNREFUSED récurrent → downtime du service local → 3 erreurs fatales en 18:14:58
V2 Upgrade incomplètement déployé : Cron lancé en v2 — 18 agents mais exécution clairsemée — 11 cycles v2 ne contiennent aucune exécution d'agent
Queue bloquée : Multiples messages Previous cron still running — latence entre cycles allant jusqu’à 35 minutes (19:31 à 20:05)

OPTIMISATIONS RECOMMANDÉES

Réaffecter OpenRouter aux seuls agents non critiques (ex : Devils Advocate, Index Keeper)
→ Libérer 80 requêtes/jour pour Redaction Analyst/Decoder → impact estimé = +12% throughput
Basculer Network Mapper, Chronologist et Contradiction Hunter sur Mistral (disponible à 95%)
→ Réduire pression Groq (actuellement à 91%) → impact estimé = +8% throughput
Redémarrer service investigator-core (port 3100) immédiatement
→ Correction ECONNREFUSED → remise en ligne Lead Investigator & Doc Crawler → impact estimé = +15% throughput
Migrer 3 agents secondaires (Index Keeper, Obstruction Tracker, Synthesis) vers Cerebras
→ Équilibrage de charge → prévenir coupure OpenRouter → impact estimé = +5% robustesse système
Forcer le cron à ignorer les PID orphelins et à relancer même si "previous running"
→ Réduction des skips sur 19:00–20:45 → récupération de 17 cycles perdus → impact estimé = +22% efficacité cyclique

[ALERTE PERF] :
- Queue bloquée sur 1h30 (19:30 à 21:00) — aucun agent actif malgré cron enclenché.
- Agent Lead Investigator en KO temporaire (erreur socket), Doc Crawler non disponible.
- OpenRouter en quasi-rupture — risque système critique si chute.

Recommandation urgente : Intervention manuelle sur service local (3100) + révision du cron scheduler — sans cela, risque de paralysie totale du pipeline sous 90 minutes.

EpsteinFiles & Co — Performance Analyst