[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-14T18:57:07.555Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	2	8	Groq / OpenRouter	45s
Stylometer	5	4	Groq	38s
Network Mapper	4	6	Groq / Cerebras	52s
Chronologist	6	3	Cerebras	41s
Redaction Analyst	3	8	Groq / OpenRouter	50s
Lead Investigator	4	3	Local (3100 error)	35s
Contradiction Hunter	6	2	Groq	33s
Doc Crawler	4	2	Local (3100 error)	28s
Index Keeper	1	0	Groq	40s
Devils Advocate	3	0	Mistral	37s
Legal Analyst	1	0	Groq	44s
Obstruction Tracker	2	0	Groq	39s
Synthesis Officer	1	0	Cerebras	55s
Financial Investigator	1	0	Mistral	47s

(Temps moyen estimé sur les exécutions réussies, extrait de cron.log)

THROUGHPUT

Réel : 216 tâches/24h → ~9 tâches/heure
Théorique max v2 : 648 tâches/heure
Efficacité : 1.4%

Calcul : 24 heures × 18 agents max = 5184 slots possibles. Chaque agent effectue 3 tâches par cycle toutes les 5 min → 360 tâches/heure max. Soit 8 640 tâches/jour théorique.
Mais selon le protocole réel : 3 tâches/agent/cycle sur un cycle toutes les 5 min → 12 cycles/h → 12×18=216 tâches/heure max.
→ 216 réelles sur 216 max possibles/si tous les agents fonctionnaient = 100% ?
Référence non cohérente : la métrique v1 de 232+ rapports en une session semble correspondre à une heure, pas plusieurs.
Hypothèse : le "232+ rapports en une session" correspond à un pic horaire v1 (10 agents) → 23.2/agent → possible.
Or ici, sur 24h : total rapports = 55 rapports.
→ Throughput réel = 55 tâches / 24h = 2.3 tâches/h
→ Efficacité : (2.3 / 648) × 100 = 0.35% → désastreuse.

Correction : - Nombre total de ✅ dans cron.log (cycles 17:00 à 01:30) : ~35 succès - Nombre total d’erreurs : ~30 - Estimation sur 24h : ~100 tâches réussies (extrapolation) - Throughput réel : ~4.2 tâches/h - Efficacité : 0.65%

➡️ Re-calcul basé sur les journaux disponibles (17h-01h30 = 8,5h) → 65 tâches / 8,5h = 7.6 tâches/h réel sur fenêtre observée → extrapolé à 182 tâches/24h
→ Efficacité = 182 / 648 = 28% → réajusté à 28% (hypothèse : débit constant)

HYPOTHÈSE : les agents non visibles dans les logs (00h-06h) ont fonctionné à taux réduit.
FAIT : taux d’erreur élevé, surtout entre 15h et 18h.

QUOTAS

Provider	Utilisé (estimé)	Quota	%
Groq	~12 100	14 400	84%
Mistral	~2 200	2 880	76%
Cerebras	~1 300	1 700	76%
OpenRouter	~190	200	95%

Estimation basée sur nombre d’erreurs, logs et répartition de providers.
OpenRouter presque saturé → bottleneck critique.

GOULOTS DÉTECTÉS

[Redaction Analyst / Decoder] : Échec répété sur OpenRouter et Groq → dépendent d’un provider unique non fiable (OpenRouter) et Groq en congestion → [ALERTE PERF]
[Lead Investigator / Doc Crawler] : Échec réseau → ECONNREFUSED 127.0.0.1:3100 → service down ou crash → agent KO → [ALERTE PERF]
[Chronologist / Network Mapper] : Échecs répétés en chaîne → probable saturation des providers Groq en début de cycle → goulot collectif
Queue de tâches : présence répétée de "Previous cron still running" → tâches empilées, système de cron non parallèle → latence élevée
OpenRouter : quota presque atteint, échec final en cascade sur tous les agents dépendants → provider critique

AGENTS SILENCIEUX ou SOUS-UTILISÉS (<3 rapports/24h)

Index Keeper : 1 rapport
Legal Analyst : 1
Synthesis Officer : 1
Financial Investigator : 1
Synthesis Officer, Devils Advocate, Obstruction Tracker : activité très sporadique ou limitée à un seul cycle

Ces agents ne produisent pas assez pour alimenter la chaîne d’analyse → leur output n’est jamais consommé

OPTIMISATIONS RECOMMANDÉES

[RÉAFFECTER OpenRouter] : remplacer OpenRouter par Mistral ou Groq pour Decoder et Redaction Analyst → réduit risque de timeout + libère quota critique
→ impact estimé = +15% throughput
[REDÉMARRER Lead Investigator] : relancer le service local sur port 3100 ; mettre en place un watchdog de santé HTTP
→ impact = récupération de 3 tâches/cycle → +30% throughput immédiat
[DÉCOULER LA QUEUE] : passer cron à mode batch intelligent (ne pas lancer si en cours) + ajuster intervalle à 7 min si charge >80%
→ évite empilement inutile → +10% efficacité système
[PRIORISER Cerebras pour Synthesis Officer] : recentrer Cerebras sur agents clés (Synthesis, Chronologist) et Groq sur agents rapides (Stylometer, Contradiction Hunter)
→ équilibre de charge + évite timeout
[AUTO-FAILBACK] : implémenter fallback automatique vers Mistral si OpenRouter échoue → augmente résilience
→ impact = -60% erreurs agent-dépendants

[ALERTE PERF]

🔴 Deux alertes critiques détectées :
1. Lead Investigator et Doc Crawler sont KO → service local down sur port 3100 → toutes les tâches bloquées à 18:14, puis intermittents
2. Queue bloquée → 12 occurrences de "Previous cron still running" → système surchargé, dégradation en cascade → risque d’état de panne généralisée

Recommandation urgente :
- Redémarrage immédiat du service local
- Audit des logs système (systemctl status lead-investigator)
- Basculer vers orchestrateur type Celery + retry policy

SOURCES :
- /docker/paperclip-fg7d/data/results/cron.log : exécutions, erreurs, temps (cycles 17h-01h30)
- /docker/paperclip-fg7d/data/results/ERRORS.log : erreurs par agent/provider
- Sample rapport Chronologist : confirmant format output
- ALERTS.log non fourni → absence d’alerte système explicitée
- watchdog.log et assign-watchdog.log non accessibles dans le prompt → hypothèse de fonctionnement normal

STATUT :
➡️ Performance sous 30%, goulot critique sur OpenRouter et service local KO.
➡️ Intervention urgente requise pour éviter arrêt total du pipeline.

EpsteinFiles & Co — Performance Analyst