[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T10:18:12.219Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	3	12	Groq / Gemini	~85s
Stylometer	4	4	Groq / OpenRouter	~72s
Chronologist	5	3	Groq	~32s
Network Mapper	5	5	Groq / Gemini	~98s
Redaction Analyst	4	8	Groq / OpenRouter	~105s
Lead Investigator	4	3	Local (ECONNREFUSED)	~67s
Doc Crawler	4	3	Local (ECONNREFUSED)	~58s
Contradiction Hunter	5	3	Groq	~42s
Devils Advocate	3	0	Groq	~38s
Index Keeper	1	0	Groq	~22s
Performance Analyst	2	0	Groq	~15s
Legal Analyst	1	0	Groq	~28s
Obstruction Tracker	2	0	Groq	~35s
Synthesis Officer	1	0	Groq	~40s
Financial Investigator	1	0	Groq	~45s

Note : Les 18 agents sont présents dans la configuration, mais seuls 15 ont été activés ou ont répondu dans les logs. Les autres (3 agents inconnus ou non loggués) sont considérés comme non utilisés.

THROUGHPUT

Réel : 72 tâches/h (moyenne sur les dernières 24h)
Théorique : 648 tâches/heure (18 agents × 3 tâches × 12 cycles/h)
Efficacité : 11,1%

QUOTAS

Provider	Utilisé (24h)	Quota	%
Groq	6 840	14 400	47,5%
Mistral	1 220	2 880	42,4%
Cerebras	380	1 700	22,4%
OpenRouter	198	200	99,0%

[ALERTE] OpenRouter à 99% de quota — risque critique de pénurie dans la prochaine heure.

GOULOTS DÉTECTÉS

Groq / Gemini / OpenRouter : Échecs répétés sur Decoder, Redaction Analyst, et Network Mapper (12+ erreurs combinées entre 17:00–18:30).
→ Cause probable : Saturation des providers ou refus de réponse (rate limiting implicite).
→ [RECOMMANDATION] Réaffecter 60% des tâches OpenRouter vers Mistral pour libérer quota, même si +30s/cycle.
Lead Investigator & Doc Crawler : Erreur ECONNREFUSED 127.0.0.1:3100 (3 occurrences)
→ Agent local KO — service investigation-core planté après 18:14.
→ [RECOMMANDATION] Reboot du service ou basculement vers conteneur de secours.
Index Keeper, Legal Analyst, Synthesis Officer : Moins de 2 rapports en 24h
→ Sous-utilisés (< 3 rapports/24h) — probablement pas intégrés au task generator.
Queue bloquée 19:00–20:50 : 10 cycles de type CRON START ayant échoué avec Previous cron still running
→ Goulot d’exécution : lock persistant sur le PID 3805649 (Chronologist ou Lead Investigator ?)
→ [ALERTE PERF] Queue de tâches bloquée >1h — impact majeur sur la cadence.

OPTIMISATIONS RECOMMANDÉES

Bascule Redaction Analyst vers Mistral : Réduira pression OpenRouter.
→ Impact estimé = sauvegarde de 35 requêtes/h → +5% throughput (compensé par +15s de latency/tâche)
Redémarrage du service local (PID 3100) : Restaurera les agents Lead Investigator et Doc Crawler.
→ Impact estimé = récupération de 6 tâches/cycle → +7,5% throughput
Réaffecter 50% des tâches Groq vers Cerebras pour Network Mapper : Charge utile, moins saturé.
→ Impact estimé = rééquilibrage de charge → +3% throughput global
Relancer task generator avec réintégration agents dormants (Synthesis Officer, Index Keeper)
→ Impact estimé = utilisation complète des 18 agents → +8% throughput
Implémenter timeout forcé (90s) + kill -9 du PID bloquant
→ Prévenir les locks longs comme PID 3805649 → +10% rendement en évitant les cycles perdus

TOTAL POTENTIEL : +33,5% throughput (72 → ~96 tâches/h)
Soit passage de 11,1% à 14,8% d'efficacité — objectif minimal realisable d’ici 2h.

NOTE D’ALERTE

[ALERTE PERF] : Queue de tâches bloquée >1h (19:00–20:50) — 10 cycles perdus → ~720 tâches manquantes. Cette panne met en danger la cadence d’audit prévue pour le batch EFTA de 2026-04-15.
→ Action URGENTE : Intervention manuelle sur le cron ou basculement vers instance backup.

Sources :
- /docker/paperclip-fg7d/data/results/cron.log : Logs d’exécution — cycles bloqués, erreurs, temps d’exécution
- /docker/paperclip-fg7d/data/results/ERRORS.log : Erreurs détaillées par agent et provider
- /docker/paperclip-fg7d/data/results/assign-watchdog.log : Absence d’assignation pour certains agents (non présent dans les logs)
- /docker/paperclip-fg7d/data/results/task-generator.log : Queue saturée ou inactive entre 19:00 et 20:50

FAIT : OpenRouter en quasi-saturation, Lead Investigator en erreur réseau locale, queue bloquée.
HYPOTHÈSE : Le blocage du Lead Investigator a propagé un timeout non géré vers le task generator, provoquant la freeze de la boucle.

➡️ Recommandation critique : Mettre en place un watchdog système pour tuer les process >120s.

EpsteinFiles & Co — Performance Analyst