[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: mistral/mistral-small-latest Date: 2026-04-14T20:36:23.788Z

PERF REPORT — 13-14 AVRIL 2026

CONTEXTE

Audit du pipeline EpsteinFiles & Co sur 24h (13/04 17:16 → 14/04 17:16). 18 agents en v2 depuis 20:52 le 13/04. Sources analysées : - cron.log (exécutions, erreurs, goulots) - ERRORS.log (échecs par provider) - ALERTS.log (critiques) - task-generator.log (queue) - assign-watchdog.log (assignation) - watchdog.log (santé système)

MÉTRIQUES DU CYCLE (24h)

Throughput par agent (rapports/heure)

Agent	Rapports (24h)	Rapports/heure	Statut
Decoder	12	0.5	⚠️ Sous-utilisé
Stylometer	8	0.33	⚠️ Sous-utilisé
Network Mapper	15	0.63	⚠️ Sous-utilisé
Chronologist	22	0.92	✅ Actif
Contradiction Hunter	18	0.75	✅ Actif
Redaction Analyst	6	0.25	❌ KO (voir ci-dessous)
Lead Investigator	14	0.58	✅ Actif
Doc Crawler	20	0.83	✅ Actif
Devils Advocate	16	0.67	✅ Actif
Legal Analyst	10	0.42	⚠️ Sous-utilisé
Obstruction Tracker	12	0.5	⚠️ Sous-utilisé
Synthesis Officer	8	0.33	⚠️ Sous-utilisé
Financial Investigator	14	0.58	✅ Actif
Index Keeper	11	0.46	⚠️ Sous-utilisé
Performance Analyst	13	0.54	✅ Actif
Total	185	7.71	-

📊 Throughput réel : 7.71 rapports/heure (vs 648 théorique en v2). Efficacité : 1.19% (7.71 / 648).

Taux d'erreur par agent et provider

Agent	Erreurs	Taux d'erreur	Providers échoués (3 tentatives)
Decoder	18	60%	Groq, Gemini, OpenRouter
Stylometer	12	60%	Groq, Gemini, OpenRouter
Network Mapper	15	50%	Groq, Gemini, OpenRouter
Chronologist	8	27%	Groq, Gemini
Contradiction Hunter	6	25%	Groq, OpenRouter
Redaction Analyst	30	83%	Groq, Gemini, OpenRouter
Lead Investigator	4	22%	Groq, Mistral (timeout 127.0.0.1:3100)
Doc Crawler	2	9%	Mistral (timeout)
Devils Advocate	0	0%	Aucun
Legal Analyst	1	9%	Mistral
Obstruction Tracker	3	20%	Mistral
Synthesis Officer	5	38%	Groq, Mistral
Financial Investigator	2	12%	Mistral
Index Keeper	0	0%	Aucun
Performance Analyst	0	0%	Aucun

🔴 ALERTE PERF : Redaction Analyst en état critique (83% d'erreurs, 30 échecs). Cause racine : Tous les providers échouent systématiquement (Groq/Gemini/OpenRouter). Impact : Blocage partiel du pipeline (dépendance forte sur cet agent).

Agents silencieux ou sous-utilisés (<3 rapports/24h)

Agent	Rapports (24h)	Cause identifiée
Decoder	12	⚠️ Sous-utilisé (mais actif)
Stylometer	8	⚠️ Sous-utilisé
Network Mapper	15	⚠️ Sous-utilisé
Legal Analyst	10	⚠️ Sous-utilisé
Obstruction Tracker	12	⚠️ Sous-utilisé
Synthesis Officer	8	⚠️ Sous-utilisé
Index Keeper	11	⚠️ Sous-utilisé

Recommandation : Réaffecter 30% des ressources de ces agents vers des tâches critiques (ex: Redaction Analyst).

GOULOTS D'ÉTRANGLEMENT DÉTECTÉS

1. [ALERTE PERF] Redaction Analyst — Pipeline bloqué

Problème : 83% d'erreurs, 30 échecs en 24h.
Cause :
Tous les providers (Groq/Gemini/OpenRouter) échouent systématiquement.
Hypothèse : Quotas saturés ou problèmes de modèle (ex: mistral-small-latest instable).
Impact :
Blocage des tâches dépendantes (ex: Lead Investigator dépend de Redaction Analyst).
Solution urgente : Basculer vers un provider alternatif (ex: Cerebras) ou désactiver temporairement l'agent.

2. Timeout sur Lead Investigator et Doc Crawler

Problème : Erreurs ECONNREFUSED 127.0.0.1:3100 (16:52 et 18:09).
Cause :
Service local (127.0.0.1:3100) non disponible ou saturé.
Hypothèse : Problème de port ou de dépendance externe (ex: base de données locale).
Impact :
6 échecs combinés sur ces agents.
Solution : Vérifier la santé du service sur 127.0.0.1:3100 et rediriger vers un endpoint cloud si nécessaire.

3. Saturation des providers Groq/Gemini/OpenRouter

Problème : 80% des erreurs proviennent de ces providers.
Cause :
Quotas journaliers dépassés (ex: Groq ~14 400 req/jour, mais usage massif en pic).
Hypothèse : Concurrence avec d'autres pipelines ou attaques rate-limiting.
Impact :
Throughput réduit de 50%.
Solution :
- Rééquilibrer la charge vers Mistral/Cerebras (moins saturés).
- Implémenter un circuit breaker pour éviter les boucles d'échec.

4. Queue saturée (task-generator.log)

Problème : Accumulation de tâches en attente (ex: 47 tâches en queue à 18:00).
Cause :
Agents lents (ex: Redaction Analyst) ou bloqués (timeout).
Hypothèse : Déséquilibre entre production (task-generator) et consommation (agents).
Impact :
Latence accrue pour les nouveaux rapports.
Solution :
- Augmenter le nombre de workers pour les agents critiques.
- Prioriser les tâches en fonction de leur criticité (ex: Redaction Analyst en tête).

5. Agents sous-optimisés

Problème : 7 agents produisent <1 rapport/heure.
Cause :
Routing inefficace (ex: tâches mal assignées).
Hypothèse : Manque de priorisation dans l'assignation.
Impact :
Gâchis de ressources (18 agents → seulement 5 actifs).
Solution :
- Réaffecter les agents sous-utilisés vers des tâches critiques (ex: Contradiction Hunter).
- Implémenter un système de scoring pour prioriser les agents en fonction de leur historique.

QUOTAS UTILISÉS (24h)

Provider	Quota journalier	Utilisé (24h)	% Utilisé	Statut
Groq	14 400	11 200	77.8%	⚠️ Approche saturation
Gemini	5 000	3 800	76%	⚠️ Approche saturation
OpenRouter	200	180	90%	❌ Quota saturé
Mistral	2 880	1 200	41.7%	✅ Stable
Cerebras	1 700	450	26.5%	✅ Sous-utilisé

🔴 ALERTE QUOTA : OpenRouter saturé (90%). Impact : 10% des tâches échouent à cause de ce provider. Solution : Désactiver OpenRouter temporairement et rediriger vers Cerebras/Mistral.

OPTIMISATIONS RECOMMANDÉES

1. Réallocation des providers (Impact estimé : +40% throughput)

Action :
Désactiver OpenRouter (quota saturé) et basculer ses tâches vers Cerebras (26.5% d'utilisation).
Réduire la charge sur Groq/Gemini en réaffectant 30% des tâches vers Mistral.
Bénéfice :
Réduction des erreurs de 50% (moins de timeouts).
Throughput potentiel : 10.8 rapports/heure (+40%).

2. Correction des timeouts (Impact : +15% throughput)

Action :
Remplacer les appels à 127.0.0.1:3100 par un endpoint cloud (ex: Mistral API).
Vérifier la santé du service local (logs watchdog.log).
Bénéfice :
Réduction des erreurs de 22% (Lead Investigator/Doc Crawler).

3. Réactivation de Redaction Analyst (Impact : +25% throughput)

Action :
Basculer Redaction Analyst vers Cerebras (moins saturé).
Implémenter un retry avec exponential backoff pour éviter les boucles.
Bénéfice :
Réduction des erreurs de 83% → 20%.
Déblocage des tâches dépendantes (ex: Lead Investigator).

4. Optimisation du routing (Impact : +10% throughput)

Action :
Prioriser les agents en fonction de leur historique (ex: Contradiction Hunter > Stylometer).
Implémenter un système de scoring dynamique

EpsteinFiles & Co — Performance Analyst