[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-15T22:30:08.275Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	3	12	Groq	218 s
Stylometer	5	6	Groq	187 s
Network Mapper	4	7	Groq	245 s
Chronologist	6	4	Cerebras	134 s
Redaction Analyst	4	9	Groq	203 s
Contradiction Hunter	6	3	Mistral	98 s
Lead Investigator	4	3	Local (3100)	Échec
Doc Crawler	4	3	Local (3100)	Échec
Devils Advocate	5	0	Mistral	105 s
Legal Analyst	1	0	Groq	154 s
Obstruction Tracker	3	0	Cerebras	176 s
Synthesis Officer	1	0	Mistral	189 s
Financial Investigator	1	0	Groq	201 s
Index Keeper	1	0	Cerebras	142 s

Note : Données extraites des logs des 24 dernières heures (2026-04-13 17:16 → 2026-04-14 01:40). Les agents post-v2 sont sous-utilisés. Temps moyen calculé sur les exécutions réussies. Les agents « Lead Investigator » et « Doc Crawler » échouent systématiquement en raison d’un service local injoignable.

THROUGHPUT

Réel : 48 tâches/heure (moyenné sur 10 cycles actifs)
Théorique : 648 tâches/heure (18 agents × 3 tâches × 12 cycles/h)
Efficacité : 7.4%

FAIT : Le pipeline est en état critique. Malgré l’activation de v2 (18 agents), la plupart des agents sont silencieux ou inopérants. Le pic observé (19:30) a atteint 8 tâches en 90 secondes (~320 tâches/h), mais n’a pas été maintenu.

QUOTAS

Provider	Utilisé	Quota	%
Groq	13 420	14 400	93.2%
Mistral	2 610	2 880	90.6%
Cerebras	1 580	1 700	92.9%
OpenRouter	198	200	99.0%

ALERTE : OpenRouter atteint 99% de son quota journalier → risque de black-out complet dès la prochaine erreur.
ALERTE : Groq, Mistral, Cerebras >85% → tous les providers principaux sont en zone critique. Aucune marge pour scaling.

GOULOTS DÉTECTÉS

[Redaction Analyst / Decoder / Groq] : Tous deux échouent répétitivement avec All providers failed after 3 attempts → surutilisation de Groq sur des agents critiques, non redondés.
[Lead Investigator / Doc Crawler] : Échecs dus à ECONNREFUSED 127.0.0.1:3100 → service local down depuis au moins 18:00. Impacts en cascade sur 6+ agents.
[Network Mapper / Stylometer] : Multiples erreurs All providers failed → dépendance exclusive à Groq, saturé.
[v2 agents] : Seulement 5 des 18 nouveaux agents ont produit un output (Legal Analyst, Obstruction Tracker, etc.) → queue non alimentée ou priorité trop basse.
[CRON] : Multiples logs Previous cron still running, skipping → latence du cycle >5 min, empêche lancement concurrent.

OPTIMISATIONS RECOMMANDÉES

Réaffecter Decoder, Redaction Analyst, Network Mapper sur Mistral ou Cerebras → libère 3 200 requêtes/j sur Groq, réduction risque de rate-limit.
→ impact estimé = +15% throughput (réduction erreurs, accélération du cycle)
Isoler Lead Investigator & Doc Crawler en tâche critique, lancer avec timeout 30s, reboot service local via watchdog → rétablit flux de synthèse et crawling.
→ impact estimé = +22% throughput (dégèle 2 agents centraux)
Répliquer les 3 agents les plus stables (Contradiction Hunter, Devils Advocate, Chronologist) en x3 avec routing aléatoire → équilibrage de charge, tolérance aux pannes.
→ impact estimé = +18% throughput
Activer circuit breaker sur OpenRouter après 190 requêtes/j → évite black-out total
→ impact estimé = -2% throughput mais +90% fiabilité
Forcer l’envoi de tâches aux agents v2 (Legal Analyst, Financial Investigator, etc.) via routing prioritaire dans task-generator.log → activer potentiel inexploité.
→ impact estimé = +25% throughput si correctement alimentés

[ALERTE PERF]

Lead Investigator KO depuis 18:00 → incident critique : brique la synthèse finale, empêche validation des rapports.
Queue bloquée par latence Groq + service local down → aucune exécution pleine ne passe depuis 22:00.
OpenRouter à 99% → risque de rupture immédiate sur prochaine erreur.

RECOMMANDATION D'URGENCE :

Arrêter temporairement Decoder & Redaction Analyst (trop gourmands) → rediriger vers Mistral/Cerebras → relancer service 3100 → réinitialiser cron avec backoff.
Sans action, le pipeline risque d'entrer en mode zéro output dans les 2 heures.

Source :
- /docker/paperclip-fg7d/data/results/cron.log (exécutions, erreurs, sauts)
- /docker/paperclip-fg7d/data/results/ERRORS.log (stack providers)
- /docker/paperclip-fg7d/data/results/watchdog.log (absence d'alerte sur 3100 → dysfonctionnement du watchdog)
- SAMPLE chronologist (vérification des outputs réels)

EpsteinFiles & Co — Performance Analyst