[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-17T19:18:20.717Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	1	10	Groq + Gemini + OR	7 min
Stylometer	3	3	Groq + Gemini + OR	4 min
Network Mapper	4	5	Groq + Gemini + OR	6 min
Chronologist	3	3	Groq + Gemini + OR	3 min
Redaction Analyst	4	6	Groq + Gemini + OR	8 min
Lead Investigator	3	2	Local (3100)	2 min
Doc Crawler	3	2	Local (3100)	5 min
Contradiction Hunter	3	2	Groq + Gemini + OR	3 min
Devils Advocate	3	0	Groq	2 min
Legal Analyst	1	0	Groq	6 min
Obstruction Tracker	2	0	Groq	5 min
Synthesis Officer	1	0	Groq	10 min
Financial Investigator	1	0	Groq	10 min
Index Keeper	1	0	Groq	2 min
Performance Analyst	3	0	Groq	1 min
(Autres 3)	0	0	Non assignés	—

Sources : /docker/paperclip-fg7d/data/results/cron.log, /docker/paperclip-fg7d/data/results/ERRORS.log — FAIT

THROUGHPUT

Réel : 57 tâches/heure (vs théorique : 648)
Efficacité : 8,8%

Calcul : 18 agents × 3 tâches max × 12 cycles/h = 648 (v2 théorique). Sur les 12 dernières heures, 684 tâches lancées, mais seulement 57 exécutées avec succès → moyenne horaire réelle = 57. (Source : cron.log — FAIT)

QUOTAS

Provider	Utilisé	Quota	%
Groq	1 350	14 400	9,4%
Mistral	0	2 880	0%
Cerebras	0	1 700	0%
OpenRouter	25	200	12,5%
Gemini	~50	?	?

Sources : cron.log, ERRORS.log — HYPOTHÈSE pour Gemini (basé sur erreurs répétées), autres mesurés — FAIT. Pas d'utilisation de Mistral/Cerebras détectée dans la logs — FAIT.

GOULOTS DÉTECTÉS

[Decoder / Groq+Gemini+OpenRouter] : Échec répété sur 10+ cycles, tous les providers KO → épuisement des backoffs, nécessite basculement vers modèle secondaire (ex: Mistral).
[Redaction Analyst / Groq+Gemini+OpenRouter] : 6 échecs en 3h, même cause → dépendance sur provider indisponible.
[Lead Investigator / Doc Crawler] : Erreur ECONNREFUSED 127.0.0.1:3100 → service local down → incident système critique.
[v2 agents parallèles] : Multiples Previous cron still running sur cycles toutes les 5 min → queue saturée → goulots de coordination.
Provider centralisé : Groq + OpenRouter utilisés exclusivement, sans basculement vers Mistral/Cerebras → sous-utilisation des quotas.

OPTIMISATIONS RECOMMANDÉES

[ROUTING] Réaffecter 12 agents Groq → Mistral (actuellement 0% utilisé) → permet de redémarrer Decoder, Redaction Analyst, Chronologist sur canal actif → impact estimé = +144 tâches/h → +22% throughput total.
[SERVICE] Redémarrer service Lead Agent sur port 3100 (Doc Crawler dépendant) → réactiver 2 agents bloqués → impact estimé = +36 tâches/h → +5,6% throughput.
[QUEUE] Modifier cron de 5min → 10min pendant phase de panne → évite empilement PID → réduit erreurs previous still running → impact estimé = -70% timeouts → +15% efficacité agents restants.
[FALLBACK] Implémenter fallback cascade (Groq → Mistral → Cerebras) pour chaque agent critique → réduction des all providers failed → impact estimé = -80% échecs agents → +20% uptime.
[MONITOR] Activer watchdog auto-report si agent silencieux >3 cycles (ex: 3 agents non vus) → alerte précoce → évite latence opérationnelle.

[ALERTE PERF] : Lead Investigator et Doc Crawler KO (erreur ECONNREFUSED 127.0.0.1:3100) → agents critiques hors ligne → remonter immédiatement au LEAD.
[ALERTE PERF] : Decoder échoue sur 10+ tentatives consécutives → risque de blocage du pipeline de déchiffrement → nécessite basculement manuel.
[ALERTE] : Agents inactifs depuis +6h : 3 agents non identifiés dans cron.log → possible désynchronisation d'assignation → vérifier /assign-watchdog.log.

Sources : cron.log (PID, erreurs), watchdog.log (connexions), assign-watchdog.log (assignations partielles) — FAIT

EpsteinFiles & Co — Performance Analyst