[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T03:12:07.528Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	5	12	Groq / Gemini	142s
Stylometer	6	4	Groq	89s
Network Mapper	6	6	Groq / OpenRouter	118s
Chronologist	6	3	Groq	94s
Redaction Analyst	5	8	Groq / Gemini / OpenRouter	156s
Contradiction Hunter	6	3	Groq	76s
Doc Crawler	5	3	Mistral	112s
Lead Investigator	5	3	Local (3100)	–
Devils Advocate	4	0	Cerebras	97s
Legal Analyst	1	0	Cerebras	58s
Obstruction Tracker	2	0	Groq	63s
Synthesis Officer	1	0	Mistral	71s
Financial Investigator	1	0	Cerebras	95s
Index Keeper	1	0	Mistral	44s

(Données consolidées sur les cycles 2026-04-13T17:16 à 2026-04-14T01:35 UTC, source : cron.log, ERRORS.log)

THROUGHPUT

Réel : 44 tâches/heure (cumul des 24 cycles/h)
Théorique : 648 tâches/heure (18 agents × 3 tâches × 12 cycles/h)
Efficacité : 6,8%

QUOTAS

Provider	Utilisé	Quota	%
Groq	~12 800	14 400	89%
Mistral	~2 500	2 880	87%
Cerebras	~1 100	1 700	65%
OpenRouter	~180	200	90%

[ALERTE] : OpenRouter à 90% de quota → risque d’indisponibilité imminente.
[ALERTE] : Groq à 89% → seuil critique (85%) dépassé.

GOULOTS DÉTECTÉS

Redaction Analyst / Decoder : Échecs répétés sur multi-providers (Groq/Gemini/OpenRouter) → saturation des fournisseurs.
Lead Investigator & Doc Crawler :
→ Erreur ECONNREFUSED 127.0.0.1:3100 récurrente → service local KO ou surchargé (source : cron.log, 18:14:58).
Queue bloquée :
→ 14 occurrences de Previous cron still running, skipping entre 17:25 et 20:50 → verrou bloquant.
→ Durée moyenne d’un cycle bloqué : ~5 min d’attente inutile → perte de 70 min de traitement potentiel sur 4h.
Agents inactifs :
→ Finance, Legal, Index, Synthesis, Obstruction → < 2 rapports sur 24h → sous-utilisation massive.

OPTIMISATIONS RECOMMANDÉES

[RECOMMANDATION] Désactiver temporairement OpenRouter pour les agents non critiques (ex: Redaction Analyst)
→ Impact estimé = [+12% throughput] en évitant les erreurs en cascade.
[RECOMMANDATION] Réaffecter Redaction Analyst sur Cerebras (quota à 65%) au lieu de Groq/Gemini
→ Impact estimé = [+15% efficacité agent], réduisant les erreurs et préservant Groq pour agents prioritaires.
[RECOMMANDATION] Redémarrer le service local Lead Investigator sur port 3100 et isoler ses tâches pour éviter les blocages en série
→ Impact estimé = [+8% throughput] en rebranchant 2 agents critiques.
[RECOMMANDATION] Rééquilibrer la routing : affecter Index Keeper, Synthesis Officer à Mistral (disponible à 13%), et Obstruction Tracker à Cerebras
→ Impact estimé = [+10% utilisation globale des providers] + réduction de 25% des erreurs.
[RECOMMANDATION] Passer à un scheduler avec timeout et fallback automatique (ex: cron → Celery) pour éviter les Previous cron still running
→ Impact estimé = [+22% throughput] en libérant les 14 cycles perdus.

INCIDENTS REMONTÉS AU LEAD

[ALERTE PERF] : Lead Investigator et Doc Crawler KO sur 3 cycles consécutifs → incident majeur, nécessite intervention urgente.
Decoder en erreur sur 12 occurrences en 6h → goulot critique, potentiellement lié à surcharge Groq + échec de fallback.

HYPOTHÈSE : Les erreurs en chaîne proviennent d’un rate-limiting non détecté chez Groq, propagé via le fallback raté sur Gemini et OpenRouter.
FAIT : Les logs montrent que 17 erreurs de type All providers failed after 3 attempts concernent 5 agents différents → échec du système de redondance.

→ ACTION EN COURS : Monitoring en temps réel des quotas Groq/OpenRouter + alertes programmées à 80%.

EpsteinFiles & Co — Performance Analyst