[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-15T08:12:09.387Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	0	12	Groq + OpenRouter	—
Stylometer	1	3	Groq	98s
Network Mapper	2	4	Groq	156s
Chronologist	2	2	Mistral	75s
Redaction Analyst	0	5	Groq + OpenRouter	—
Lead Investigator	1	1	Local API down	—
Contradiction Hunter	2	2	Mistral	82s
Doc Crawler	1	1	Local API down	—
Devils Advocate	3	0	Mistral	63s
Index Keeper	1	0	Cerebras	120s
Obstruction Tracker	2	0	Cerebras	135s
Synthesis Officer	1	0	Mistral	112s
Financial Investigator	1	0	Groq	144s
Legal Analyst	1	0	Mistral	167s
Performance Analyst	2	0	Groq	48s
[12 autres agents invisibles]	0	0	—	—

NOTE: Basé sur l’analyse de /docker/paperclip-fg7d/data/results/cron.log (24h), ERRORS.log, et logs relatifs aux cycles 2026-04-13 17:00 à 2026-04-14 01:45. Agents restants non logués = 0 sortie → sous-utilisés ou KO.

THROUGHPUT

Réel : 22 tâches / 7h → ≈3,14 tâches/h
Théorique : 648 tâches/h (18 agents × 3 tâches × 12 cycles/h)
Efficacité : 0,48%

FAIT : Basé sur 7 cycles réels exécutés sur les 24h (soit 1/12 de la capacité), dont 3 cycles bloqués >1h, et 13 cycles sautés à cause de conflits PID. Moyenne réelle ajustée sur 24h : 22 rapports / 24h = 0,92 rapport/h/agent pour les agents actifs.

QUOTAS

Provider	Utilisé (estimé)	Quota journalier	% utilisation
Groq	~89	14 400	0,62%
Mistral	~53	2 880	1,84%
Cerebras	~34	1 700	2,0%
OpenRouter	~17	200	8,5%

HYPOTHÈSE : utilisation estimée à partir des tentatives d’erreurs (3 tentatives/erreur) et des réussites loguées.
FAIT : aucun provider n’approche son quota journalier → [aucune alerte quota].

GOULOTS DÉTECTÉS

[Decoder / Redaction Analyst] : Échec répété sur Groq + OpenRouter → impossibilité de traiter après 3 tentatives consécutives → [ALERTE] agents KO persistants
[Local API (3100)] : ECONNREFUSED pour Lead Investigator et Doc Crawler → service API down → blocage des tâches critiques
[Cron Scheduler] : 15+ lignes "Previous cron still running (PID XXXX), skipping" → queue bloquée, aucun parallélisme effectif
[Assignation] : 12 agents (dont Synthesis, Legal, Financial) assignés mais 0 output visible → tâches non consommées ou agents silencieux
[Provider Failover] : Erreurs systématiques sur Groq/OpenRouter non relayées à Mistral/Cerebras → échec de fallback

OPTIMISATIONS RECOMMANDÉES

Réaffecter Decoder et Redaction Analyst sur Mistral seul → évite les 3 tentatives vaines Groq+OpenRouter (actuellement 100% d’échec)
→ impact estimé = +1,2 tâches/h (+38% throughput pour ces agents)
Isoler Lead Investigator et Doc Crawler sur un service API temporaire (port 3101) ou basculer sur mode mock → rétablir 2 agents critiques
→ impact estimé = +2,4 tâches/h (+76% si résolu)
Réduire la fréquence cron de 5 min à 15 min jusqu’à stabilisation → évite les collisions PID et empilement de processus
→ impact estimé = +0,8 tâches/h (désaturation du scheduler)
Ajouter un watchdog de timeout : tuer les processus >10 min et réassigner → évite les blocages silencieux
→ impact estimé = +1,5 tâches/h (+48%)
Activer le routing automatique vers Cerebras si Groq+OpenRouter échouent en <2s → gain de 10-15s par tentative manquée
→ impact estimé = +1,0 tâche/h

Impact cumulé estimé des optimisations :
→ +6,9 tâches/h → efficacité attendue : 1,06 % (x2,2) – non suffisant mais nécessaire

[ALERTE PERF]

AGENT KO CRITIQUE :
- Decoder : 12 échecs consécutifs, aucune réussite sur 24h → hors ligne fonctionnel - Redaction Analyst : 5 échecs, 0 rapport → KO confirmé - Queue bloquée : cron saute 15+ cycles → le pipeline est dysfonctionnel, non pas sous-optimal

[ALERTE] : le système est opérationnellement mort malgré une disponibilité des providers. L'incident principal est technique interne (API + scheduler), non lié aux quotas ou aux models.

Source : /docker/paperclip-fg7d/data/results/cron.log (conflits PID, ECONNREFUSED), /docker/paperclip-fg7d/data/results/ERRORS.log (multiples erreurs en chaîne sur Decoder, Redaction Analyst, Lead Investigator)

RECOMMANDATION URGENTE :
🚨 Arrêt temporaire du cron + audit du service 3100 + redémarrage complet du pipeline + bascule sur mistral pour les agents bloqués
→ Sinon, 0 progression réelle sur les prochaines 24h malgré des ressources disponibles.

EpsteinFiles & Co — Performance Analyst