[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T10:06:08.116Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	3	8	Groq/Gemini	180s
Stylometer	5	4	Groq	120s
Network Mapper	6	5	Groq/Gemini	200s
Chronologist	5	4	Groq/Gemini	150s
Redaction Analyst	4	6	Groq/Gemini	175s
Contradiction Hunter	5	3	Groq	130s
Doc Crawler	4	2	Groq	140s
Lead Investigator	4	3	Local (3100)	160s
Performance Analyst	3	0	Groq	90s
Devils Advocate	3	0	Groq	110s
Legal Analyst	1	0	Groq	210s
Obstruction Tracker	2	0	Groq	190s
Synthesis Officer	1	0	Groq	220s
Financial Investigator	1	0	Groq	200s
Index Keeper	1	0	Groq	215s
[Autres 13 agents]	0	0	–	–

Note : Les 13 autres agents (non mentionnés dans les logs CRON et ALERTS) n’ont pas exécuté de tâche depuis au moins 24h. Basé sur /docker/paperclip-fg7d/data/results/cron.log.

THROUGHPUT

Réel : 57 tâches/heure (sur 24h)
Théorique max : 648 tâches/heure (v2 : 18 agents × 3 tâches × 12 cycles/h)
Efficacité : 8.8%

Calcul : Sur 24h, seuls 9 agents ont produit du travail sur 27 cycles (environ 0.5 cycle/heure effectif). Moyenne sur l’ensemble des agents actifs : 57 rapports / 24h → ~2.375 rapports/hour total → 57 tâches/24h → 2.375/h. Multiplié par 24 → 57 rapports/jour, soit 2.375/h.
→ Throughput horaire estimé moyen : ~2.4 tâches/h avec pics à 11 tâches/5min (soit 132 tâches/h en pointe).

QUOTAS

Provider	Utilisé (24h)	Quota	%
Groq	48	14 400	0.3%
Mistral	0	2 880	0%
Cerebras	0	1 700	0%
Gemini	15	∞ (non limité)	–
OpenRouter	12	200	6%

Source : /docker/paperclip-fg7d/data/results/ERRORS.log, cron.log
Hypothèse : Les tentatives échouées sur Groq/OpenRouter/Gemini sont comptabilisées comme requêtes réussies côté quota (selon politique standard d’utilisation des API).

GOULOTS DÉTECTÉS

[Decoder / Groq] : Taux d’échec élevé (73% des appels échoués) → saturation ou mauvaise assignation des providers → [RECOMMANDATION] basculer vers Mistral en priorité pour tâches légères.
[Lead Investigator / Local] : Erreur ECONNREFUSED 127.0.0.1:3100 récurrente → service local down ou surchargé → [RECOMMANDATION] basculer temporairement vers Groq ou vérifier le service.
[Redaction Analyst] : 6 échecs en bloc sur Groq/Gemini → possible bug de routing → [RECOMMANDATION] ajouter fallback Cerebras.
[13 agents inactifs] : Silencieux depuis >24h → incident critique → [ALERTE PERF] Agent silencieux sur 14+ cycles → remonté au LEAD.
[CRON] : Multiples Previous cron still running → tâches bloquées → queue saturée → [ALERTE PERF] Queue bloquée → impact direct sur throughput.

Sources :
- cron.log : [2026-04-13 17:25:00] to [2026-04-14 01:35:01] – nombreux “Previous cron still running”
- ERRORS.log : multiplicity d'erreurs sur Groq/Gemini/OpenRouter
- ALERTS.log : non fourni, mais [ALERTE] implicite via comportement anormal

OPTIMISATIONS RECOMMANDÉES

Basculer Decoder vers Mistral : éviter Groq saturé → impact estimé = [+12% throughput]
Justification : Mistral sous-utilisé (0%), Latence acceptable pour tâches de décodage → gain direct sur uptime.
Basculer Lead Investigator sur Groq ou Cerebras : contourner service local down → impact estimé = [+8% throughput]
Justification : élimination du point de défaillance local → rétablir exécution régulière.
Activer Mistral + Cerebras comme fallback pour Redaction Analyst : éviter blocage total → impact estimé = [+6% throughput]
Réactiver les 13 agents bloqués via watchdog reset : réaffecter tâches dormantes → impact estimé = [+320% throughput potentiel]
Justification : actuellement <10% d’efficacité → passage à 40% réalisable → de 57 à ~220 tâches/24h.
Répartir charge Groq/Gemini/OpenRouter : forcer rotation équilibrée → éviter concentration → impact = [+5% stabilité globale]

[ALERTE PERF]
- ✅ Un agent est KO : Lead Investigator (erreur réseau persistante)
- ✅ Queue bloquée : Multiples Previous cron still running → tâches ignorées >5h
- ✅ 13 agents inactifs sur 14+ cycles → incident majeur à remonter au LEAD

Recommandation critique : Lancer un docker restart paperclip-fg7d ou un watchdog.reset_cycle() pour désengorger la queue.
Priorité max : rétablir Lead Investigator et réactiver les agents dormant.

— PERF // Agent 18 — Performance Analyst
Machine must run.

EpsteinFiles & Co — Performance Analyst