[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-16T00:18:08.510Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	1	12	Groq / Gemini / OR	720s
Stylometer	3	4	Groq / Gemini / OR	210s
Network Mapper	4	5	Groq / Gemini / OR	450s
Chronologist	3	4	Groq / Gemini / OR	390s
Redaction Analyst	4	7	Groq / Gemini / OR	810s
Lead Investigator	2	3	Local (3100)	380s
Contradiction Hunter	3	2	Groq / Gemini / OR	190s
Doc Crawler	3	2	Local (3100)	260s
Devils Advocate	2	0	Groq	195s
Legal Analyst	1	0	Groq	320s
Obstruction Tracker	2	0	Groq	280s
Synthesis Officer	1	0	Groq	340s
Financial Investigator	1	0	Groq	310s
Index Keeper	1	0	Groq	275s
Performance Analyst	2	0	Groq	180s
[AGENT_X16]	0	0	Inconnu	—
[AGENT_X17]	0	0	Inconnu	—
[AGENT_X18]	0	0	Inconnu	—

Note : Les 9 agents initiaux sont visibles dans les logs post-19h30. Les 9 agents v2 (Legal Analyst à AGENT_X18) n’apparaissent qu'à partir de 20:52. Les agents X16 à X18 ne sont pas logués en succès/erreur → probablement non assignés ou désactivés. Données extraites du cron.log (2026-04-13 17:16 à 2026-04-14 01:35) et ERRORS.log.

THROUGHPUT

Réel : 42 tâches / 7,25h = ~5,8 tâches/heure
Théorique : 648 tâches/heure (v2 complet)
Efficacité : (5.8 / 648) × 100 ≈ 0,9%

Analyse : Une exécution normale tous les 5 min devrait produire 12 cycles/h × 3 tâches = 36 tâches/h pour 6 agents, ou 108 tâches/h avec 18 agents. Le pipeline est largement sous-utilisé, principalement bloqué par des erreurs répétées.

QUOTAS

Provider	Utilisé estimé	Quota	%
Groq	~192	14 400	1,3%
Mistral	~0	2 880	0%
Cerebras	~7	1 700	0,4%
OpenRouter	~50	200	25%

Source : Extrapolation via ERRORS.log (erreur sur 12+ appels Groq/Google/OR, 1 Cerebras utilisé pour Chronologist). Utilisation très faible → pas d’alerte quota.

GOULOTS DÉTECTÉS

Decoder / Redaction Analyst / Stylometer / Chronologist : Échecs répétés sur Groq + Gemini + OpenRouter → impossibilité de reprise → 12+ erreurs en 5h
→ Cause probable : Rate limiting mal géré, fallback non fonctionnel
Lead Investigator & Doc Crawler : Échec réseau ECONNREFUSED 127.0.0.1:3100 → service down ou port bloqué
v2 Agents (X16 à X18) : Agents silencieux sur 10+ cycles → non assignés ou désactivés
Queue bloquée : Multiples lignes [Previous cron still running (PID ...), skipping] entre 19:00 et 20:50 → tâches en attente non exécutées
→ Source : cron.log entre 19:05:01 et 20:50:43

[ALERTE PERF] Queue critique — La file d’exécution est bloquée pendant 1h45, empêchant 24 cycles d’exécution → ~648 × 1,75 = 1 134 tâches perdues.

OPTIMISATIONS RECOMMANDÉES

Rediriger tous les agents Groq/Gemini/OR vers Cerebras temporairement → évite les échecs en cascade → impact estimé : +400% throughput (passage de 5,8 à ~25 tâches/h)
→ Justification : Cerebras est sous-utilisé (moins de 1% du quota), modèle stable (ex : Chronologist réussi via Cerebras)
Corriger le fallback provider : Implémenter un mécanisme de rotation prioritaire (Groq → Cerebras → Mistral) avec backoff exponentiel → impact estimé : -80% erreurs, +20% efficacité résiduelle
Redémarrer le service 127.0.0.1:3100 (Lead Investigator / Doc Crawler) → impact estimé : +8 tâches/h
Réactiver ou désaffecter les agents X16 à X18 → éviter la consommation fantôme de cycles → impact estimé : +5% stabilité du scheduler
Changer la fréquence cron de 5 à 10 min temporairement tant que le goulot principal persiste → évite le [Previous cron still running] → impact estimé : -90% pertes par conflit

[ALERTE PERF] Lead Investigator KO — Le service local est inactif (ECONNREFUSED), empêchant l’analyse centrale. Remonter au LEAD immédiatement.

Sources :
- /docker/paperclip-fg7d/data/results/cron.log — exécutions, sauts, succès/échecs
- /docker/paperclip-fg7d/data/results/ERRORS.log — erreurs des agents, providers
- /docker/paperclip-fg7d/data/results/ALERTS.log — vide (non fourni)
- Exemple rapport : chronologist/2026-04-16T00-00-31__CHRONO__Analyser_FBI_Vault___Jeffrey_Epstein_Part.md — modèle, sortie réussie

Fait : Échecs répétés sur Groq/Gemini/OR, queue bloquée, service 3100 down.
Hypothèse : Problème de rate limiting ou configuration réseau côté provider. Pas d’erreur DNS ou timeout explicite → probablement refus applicatif.

[ALERTE PERF] Pipeline critique — Queue bloquée + Lead KO — Intervention d’urgence requise.

EpsteinFiles & Co — Performance Analyst