[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-18T21:24:09.128Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE (dernières 24h)

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	2	14	Groq	320s
Stylometer	4	5	Groq	45s
Network Mapper	3	6	Groq	98s
Chronologist	3	4	Groq	52s
Redaction Analyst	4	8	Groq	135s
Contradiction Hunter	4	3	Groq	38s
Doc Crawler	4	2	Groq	41s
Lead Investigator	4	3	Groq	62s
Devils Advocate	3	0	Groq	49s
Performance Analyst	3	0	Groq	18s
Legal Analyst	1	0	Groq	58s
Obstruction Tracker	2	0	Groq	33s
Synthesis Officer	1	0	Groq	76s
Financial Investigator	1	0	Groq	112s
Index Keeper	1	0	Groq	44s
Agent 16	0	0	—	—
Agent 17	0	0	—	—
Agent 18	0	0	—	—

(Source : /docker/paperclip-fg7d/data/results/cron.log, /docker/paperclip-fg7d/data/results/ERRORS.log)

Fact → Basé sur le log CRON et les erreurs horodatées. Agents 16-18 n’ont jamais été invoqués depuis le déploiement du pipeline v2 (2026-04-13 20:50:43).
Hypothèse → Configuration incomplète du task generator ou absence de tâches assignées à ces agents.

THROUGHPUT

Réel : 63 tâches / 24h → 2,625 tâches/h
Théorique max (v2) : 648 tâches/h (18 agents × 3 tâches/heure)
Efficacité : 0,405%

[ALERTE PERF] Throughput critique. Moins de 0,5% de la capacité maximale exploitée. Défaillance de scale.

QUOTAS (24h)

Provider	Utilisé	Quota	%
Groq	63	14 400	0,44%
Mistral	0	2 880	0%
Cerebras	0	1 700	0%
OpenRouter	0	200	0%

Fact → Utilisation minime de Groq par rapport au quota. Aucun appel aux autres providers.
Hypothèse → Tous les agents sont routés exclusivement vers Groq, même en cas d'échec répété.

GOULOTS DÉTECTÉS

Decoder / Redaction Analyst / Groq :
Problème : Échecs répétés (14 erreurs pour Decoder), bloquent les cycles CRON.
Source : ERRORS.log montre 14 échecs consécutifs avec All providers failed after 3 attempts (Groq + Gemini + OpenRouter)
Observation : Gemini et OpenRouter sont configurés mais inaccessibles ou inactifs. OpenRouter en refus de connexion.
Agent Manager (task-generator) :
Problème : Ne dispatche que 6-8 agents par cycle malgré 18 disponibles.
Source : dans cron.log, tous les appels CRON sont === CRON START (6+2) ou === CRON START (8 parallèle) → jamais 18 agents
Hypothèse : Paramétrage figé dans task-generator.config. Passage à v2 non appliqué.
Agents 16, 17, 18 :
Problème : Complètement silencieux depuis 24h → 48 cycles sans activité.
Règle violée → "Un agent silencieux sur 3+ cycles = incident à remonter"
[ALERTE PERF] Agents désactivés ou non configurés.
Queue bloquée :
Source : task-generator.log non fourni → non consulté
Observation : Présence de Previous cron still running (PID XXXX), skipping à partir de 2026-04-13 19:05:01 → 14 cycles sautés d'affilée
→ Queue saturée ou traitement trop long.
Failover désactivé :
Problème : Erreur Groq entraîne échec total, malgré la disponibilité théorique de Gemini et OpenRouter
Hypothèse : Problème d’ordre de failover ou refus réseau vers Gemini/OpenRouter.

OPTIMISATIONS RECOMMANDÉES

Réactiver le failover multi-provider avec rollback Groq→Mistral :
→ Activer Mistral comme backup de Groq pour Decoder et Redaction Analyst (modèles comparables)
→ Impact estimé = +25% de succès → +60% throughput = 4,23 tâches/h → gain de 1,6 tâches/h
Corriger le task-generator pour cibler 18 agents en parallèle :
→ Modifier le cron pour appeler run_cycle.sh --agents=18 au lieu de --agents=6+2
→ Impact estimé = +692% throughput → passage de 2,6 à 18 tâches/h (hypothèse taux d’erreur constant)
Réaffecter 50% des tâches Groq vers Mistral :
→ Équilibrage de charge malgré meilleur temps de réponse de Groq
→ Prévenir le quota Groq d’être saturé si throughput augmente
→ Impact estimé = -15% latence moyenne globale en cas de congestion, mais +300% résilience
Supprimer OpenRouter de la chaîne de traitement immédiat :
→ Quota trop faible (200/jour), faible disponibilité
→ Réserver pour vérification humaine ou tâches critiques ponctuelles
→ Impact estimé = -2% de pertes de requête, gain de stabilité
Audit réseau urgence :
→ Vérifier connectivité vers 127.0.0.1:3100 (Lead Investigator & Doc Crawler en ECONNREFUSED)
→ Source : cron.log (18:14:58)
→ Impact estimé = -3 erreurs/cycle → +37,5% de succès pour ces agents → +1,2 tâches/h

CONCLUSION

[ALERTE PERF]
- Pipeline en état de panne partielle : 0,4% d'efficacité, queue bloquée, agents KO, failover inopérant.
- Agents 16-18 hors ligne → configuration incomplète.
- Lead Investigator et Doc Crawler en refus de connexion local → incident critique.

Recommandation urgente au LEAD :
👉 Arrêt du cycle automatique
👉 Déploiement manuel du correctif de routing + rééquilibrage v2
👉 Audit complet du task-generator, watchdog et connexions locales

EpsteinFiles & Co — Performance Analyst