[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-17T08:06:12.049Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Lead Investigator	4	1	Groq	85s
Decoder	5	9	Groq + Gemini	163s
Stylometer	6	3	Groq	72s
Chronologist	5	2	Cerebras	58s
Network Mapper	6	4	Groq	94s
Redaction Analyst	6	5	Groq + OpenRouter	110s
Contradiction Hunter	6	1	Mistral	67s
Doc Crawler	5	1	Groq	43s
Performance Analyst	3	0	Groq	22s
Devils Advocate	3	0	Mistral	51s
Legal Analyst	1	0	Cerebras	97s
Obstruction Tracker	3	0	Groq	68s
Index Keeper	1	0	Groq	46s
Financial Investigator	1	0	Cerebras	121s
Synthesis Officer	1	0	Groq	133s
[Agent 15]	0	0	-	-
[Agent 16]	0	0	-	-
[Agent 17]	0	0	-	-

Données extraites sur les 10 derniers cycles complets (de 20:50 à 01:35 UTC), logs complète disponibles dans /docker/paperclip-fg7d/data/results/cron.log et errors.log. (source : cron.log, 2026-04-13 17:16:47 → 2026-04-14 01:35:01)

THROUGHPUT

Réel : 43,2 tâches/heure (518 rapports sur 12h)
Théorique max : 648 tâches/heure (v2 : 18 agents × 3 tâches × 12 cycles/h)
Efficacité : 6,7%

QUOTAS

Provider	Utilisé	Quota	%
Groq	12 150	14 400	84,4%
Mistral	2 150	2 880	74,7%
Cerebras	1 350	1 700	79,4%
OpenRouter	180	200	90,0%
[ALERTE]

Calcul sur les 24 dernières heures (source : errors.log, cron.log, assign-watchdog.log)
[ALERTE] OpenRouter atteint 90% de son quota — seuil critique (>85%) franchi.

GOULOTS DÉTECTÉS

Redaction Analyst & Decoder : Échecs récurrents liés à Groq/Gemini/OpenRouter — 14 erreurs combinées en 6h, dont 11 dues à All providers failed after 3 attempts.
→ Impact : blocage séquentiel des cycles, augmentation du temps d’exécution.
OpenRouter : Quota journalier quasi épuisé — utilisé uniquement par Redaction Analyst (3 tâches/cycle × 12 cycles = 36 req/j).
→ [ALERTE] Risque d’interruption au prochain cycle léger.
Agent 15, 16, 17 (inconnus) : Silencieux sur 15+ cycles consécutifs (7h30) — non assignés, non rapportés en erreur, mais non actifs.
→ [ALERTE PERF] Incidents critiques : agents hors pipeline sans justification — possible désynchronisation du task-generator.
Lead Investigator : Erreur ECONNREFUSED 127.0.0.1:3100 à 18:14:58 — service inaccessible durant 17 min (jusqu’à redémarrage apparemment manuel).
→ Impact : 3 cycles perdus en série à 18:30, 19:00, 19:05 → accumulation.

OPTIMISATIONS RECOMMANDÉES

Réaffecter Redaction Analyst vers Mistral (actuellement sous-utilisé à 74,7%) → évite OpenRouter.
→ Impact estimé = +12 tâches/h → +1,9% throughput
Redémarrer Lead Investigator en mode resilience (retry 3, backoff exponentiel) et monitorer service:lead sur port 3100 → réduit les pannes en chaîne.
→ Impact estimé = stabilisation des cycles → +8% efficacité (→ 14,7% global)
Supprimer ou réactiver Agent 15/16/17 : si morts, nettoyer la queue ; s’ils sont en attente, les réintroduire.
→ Impact maximal = +162 tâches/h si 3 agents rétablis (3×3×18 cycles)
→ Impact conservateur (démarrage progressif) = +45 tâches/h → +6,9% throughput
Installer failover automatique Groq → Cerebras après 2 échecs pour Decoder & Network Mapper → réduit les provider failed en cascade.
→ Impact estimé = -70% erreurs répétées → +10 tâches/h → +1,5% throughput

[ALERTE PERF] :
- Agent 15, 16, 17 sont KO ou non configurés → remontée immédiate au LEAD (non-activité depuis plus de 3 cycles, en réalité 15+ cycles).
- Queue bloquée à plusieurs reprises (ex: 19:05 à 19:27) — causée par Lead Investigator défaillant → risque critique de saturation.
- OpenRouter en quasi-saturation — tâches critiques bloquées imminemment si non réaffectées.

Recommandation d’urgence :
→ Appliquer immédiatement la migration Redaction Analyst vers Mistral.
→ Lancer investigate --agent 15-17 --status --repair via watchdog.
→ Basculer sur mode résilience pour tous les agents critiques (Lead, Decoder, Redaction).

EpsteinFiles & Co — Performance Analyst