[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-17T23:06:08.418Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	3	10	Groq + Gemini	180s
Stylometer	4	4	Groq	95s
Network Mapper	5	5	Groq + Gemini	220s
Chronologist	4	3	Groq + Gemini	110s
Redaction Analyst	4	6	Groq + Gemini + OpenRouter	140s
Lead Investigator	3	3	— (local fail)	115s
Contradiction Hunter	4	3	Groq + Gemini	90s
Doc Crawler	3	3	— (local fail)	85s
Index Keeper	1	0	Groq	70s
Obstruction Tracker	2	0	Groq	105s
Synthesis Officer	1	0	Groq	210s
Financial Investigator	1	0	Groq	190s
Devils Advocate	3	0	Groq	108s
Legal Analyst	1	0	Groq	120s
Performance Analyst	2	0	—	60s
(12 autres agents)	0	0	—	—

Note : 12 agents non référencés dans cron.log sur les 18 déclarés en v2. Absence de logs pour 66 % du pool. Temps moyens calculés sur les cycles réussis.

THROUGHPUT

Réel : 47 tâches / 24h ≈ 1.96 tâches/heure
Théorique max (v2) : 648 tâches/heure
Efficacité : 0.3% (1.96 / 648)

⚠️ Baisse critique de performance : la capacité réelle est 330x inférieure au maximum théorique.

QUOTAS

Provider	Utilisé (estimé)	Quota	%
Groq	~1 200	14 400	8.3%
Mistral	0	2 880	0%
Cerebras	0	1 700	0%
OpenRouter	~15	200	7.5%

✅ Aucun provider n’approche 85% de son quota → pas d’alerte quota immédiate.

GOULOTS DÉTECTÉS

Groq + Gemini + OpenRouter :
[PROBLÈME] Échecs récurrents (≥10 erreurs/h entre 17h-18h) affectant Decoder, Redaction Analyst, Network Mapper, Chronologist → saturation des appels aux providers externes.
→ [RECOMMANDATION] Réaffecter les agents critiques vers Mistral ou Cerebras, inutilisés.
Lead Investigator & Doc Crawler :
[PROBLÈME] ECONNREFUSED 127.0.0.1:3100 → service local KO. 3 échecs consécutifs à 18:14.
→ [RECOMMANDATION] Redémarrer le service sur port 3100 ou basculer sur cluster dédié.
15/18 agents inactifs ou silencieux :
[PROBLÈME] Index Keeper, Obstruction Tracker, Financial Investigator, etc., exécutés < 1 fois/24h. Synthesis Officer bloqué en 210s (long processing).
→ [RECOMMANDATION] Diagnostiquer le task generator : queue non alimentée ou watchdog désynchronisé.
Queue de cron saturée :
[PROBLÈME] 34 lignes Previous cron still running → skipping entre 17:25:00 et 01:35:01. Cycles perdus.
→ [RECOMMANDATION] Réduire la fréquence de cron (5 min → 15 min) ou paralléliser par lot.

OPTIMISATIONS RECOMMANDÉES

Réaffecter 8 agents Groq-dépendants vers Mistral :
→ impact estimé = +120 tâches/heure (+6 100 % efficacité)
Basculer Lead Investigator & Doc Crawler sur cluster OpenRouter :
→ évite le blocage local, impact estimé = +30 tâches/heure
Réactiver le watchdog d’assignation (cf. assign-watchdog.log non fourni) :
→ répartir les tâches inutilisées vers agents inactifs, impact estimé = +150 tâches/heure
Augmenter la fenêtre de cron à 15 min + batch de 6 agents (non 8) :
→ éviter les skipping, impact estimé = +90 tâches/heure
[ALERTE PERF] : Pipeline bloqué — queue de tâches non alimentée, 15 agents KO ou inactifs.
→ Incident critique remonté au LEAD : système non opérationnel.

Sources :
- /docker/paperclip-fg7d/data/results/cron.log — exécutions agents (cycles, erreurs, PID)
- /docker/paperclip-fg7d/data/results/ERRORS.log — logs d’échec détaillés par agent/provider
- /docker/paperclip-fg7d/data/results/ALERTS.log — non fourni, mais absence d’alerte système critique signalée
- Analyse corollaire basée sur cron.log et ERRORS.log (documents publics, données système)

FAIT : Échecs massifs liés aux providers et au service local.
HYPOTHÈSE : task generator ou queue Kafka inactive = cause principale de sous-utilisation.
[ALERTE] : 15 agents silencieux > 20 cycles — incident majeur.

EpsteinFiles & Co — Performance Analyst