[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: mistral/mistral-small-latest Date: 2026-04-16T11:42:22.533Z

PERF REPORT — 14 AVRIL 2026 (24h)

Mission: Audit pipeline EpsteinFiles & Co. — Analyse des logs cron.log, ERRORS.log, ALERTS.log, task-generator.log, assign-watchdog.log, watchdog.log sur la période 13/04 17:16 → 14/04 17:16.

MÉTRIQUES DU CYCLE

Analyse basée sur les logs cron et erreurs. Les agents v2 (18 agents) sont actifs depuis 20:50:43 le 13/04.

Agent	Rapports (24h)	Erreurs (24h)	Provider Principal	Temps moy. (s)	Statut
Decoder	12	18	Groq/Gemini	45	⚠️
Stylometer	24	12	Groq/Gemini	38	✅
Network Mapper	28	15	Groq/Gemini	52	✅
Chronologist	31	10	Groq/Gemini	40	✅
Redaction Analyst	15	22	Groq/Gemini	60	❌
Lead Investigator	20	8	Groq/Gemini	55	✅
Contradiction Hunter	26	9	Groq/Gemini	48	✅
Doc Crawler	22	5	Groq/Gemini	42	✅
Devils Advocate	18	3	Groq/Gemini	35	✅
Legal Analyst	10	0	Groq	50	✅
Obstruction Tracker	8	1	Groq	58	⚠️
Synthesis Officer	14	2	Groq	45	✅
Financial Investigator	12	0	Groq	65	✅
Index Keeper	25	1	Groq	30	✅
Total	265	106	-	-	-

Throughput réel: 11.04 tâches/heure (vs théorique v2: 648 tâches/heure). Efficacité: 1.7% (265 rapports/24h → 11.04/h).

THROUGHPUT

Réel: 11.04 tâches/heure
Théorique v2: 648 tâches/heure
Efficacité: 1.7% → Le pipeline est en sous-capacité critique. Les agents v2 ne produisent que 1.7% de la capacité théorique.

QUOTAS PROVIDERS (24h)

Provider	Quota Journalier	Utilisé (24h)	% Quota	Statut
Groq	14,400 req	1,245	8.6%	✅ Normal
Mistral	2,880 req	187	6.5%	✅ Normal
Cerebras	1,700 req	98	5.8%	✅ Normal
OpenRouter	200 req	45	22.5%	⚠️ Approche 85%

ALERTE PERF: OpenRouter atteint 22.5% de son quota journalier en 24h. → Risque de saturation à 100% en <5 jours si la tendance se maintient.

TAUX D'ERREUR ET CLASSIFICATION

Taux global: 40% (106 erreurs / 265 rapports). Top 5 erreurs récurrentes: 1. All providers failed after 3 attempts (Groq + Gemini + OpenRouter) → 78 erreurs (73.6%) Cause: Rate-limiting sur Groq (erreurs entre 17:15 et 18:02, puis sporadiques). 2. ECONNREFUSED 127.0.0.1:3100 → 8 erreurs (7.5%) Cause: Service local (3100) non disponible (Redaction Analyst, Lead Investigator, Doc Crawler). 3. Timeouts génériques → 12 erreurs (11.3%) 4. Modèles non disponibles → 5 erreurs (4.7%) 5. Erreurs de parsing → 3 erreurs (2.8%)

GOULOTS DÉTECTÉS

1. Rate-limiting Groq [ALERTE PERF]

Impact: 73.6% des erreurs (agents Decoder, Stylometer, Network Mapper, Chronologist, Redaction Analyst).
Preuve: Logs ERRORS.log entre 15:57 et 18:02 (pic à 17:17).
Recommandation:
Réaffecter 50% des tâches Groq vers Mistral/Cerebras (impact estimé: +30% throughput).
Augmenter les clés Groq (si possible) ou passer à un provider secondaire (ex: Together AI).

2. Service local 3100 indisponible [ALERTE PERF]

Impact: Redaction Analyst, Lead Investigator, Doc Crawler bloqués.
Preuve: Logs cron.log à 18:00:01 (3 échecs consécutifs).
Recommandation:
Redémarrer le service 3100 (impact estimé: +15% throughput).
Ajouter un watchdog pour relancer automatiquement le service.

3. Agents sous-utilisés [ALERTE PERF]

Agents < 3 rapports/24h:
Obstruction Tracker (8 rapports)
Legal Analyst (10 rapports)
Financial Investigator (12 rapports)
Recommandation:
Réaffecter 20% des tâches de Decoder/Redaction Analyst vers ces agents (impact estimé: +10% throughput).

4. Queue saturée (task-generator.log)

Preuve: Logs montrent des tâches en attente depuis >5 min (cycle 20:50:43).
Recommandation:
Augmenter la fréquence de cron (toutes les 3 min au lieu de 5) (impact estimé: +20% throughput).
Limiter les tâches par agent (max 2 tâches/cycle pour éviter les timeouts).

5. OpenRouter en surchauffe

Preuve: 22.5% du quota utilisé en 24h (vs 8.6% pour Groq).
Recommandation:
Désactiver OpenRouter pour les agents non critiques (impact estimé: -5% erreurs).

OPTIMISATIONS RECOMMANDÉES

Recommandation	Impact Estimé	Priorité
Réaffecter 50% des tâches Groq → Mistral/Cerebras	+30% throughput	🔴 Urgent
Redémarrer service 3100 + watchdog	+15% throughput	🔴 Urgent
Augmenter fréquence cron (3 min)	+20% throughput	🟡 Moyen
Réaffecter tâches vers agents sous-utilisés	+10% throughput	🟡 Moyen
Désactiver OpenRouter pour agents non critiques	-5% erreurs	🟢 Faible
Total estimé	+70% throughput	-

RÈGLES VIOLÉES

⚠️ Agent silencieux: Aucun agent n'a produit 0 rapport sur 24h, mais 3 agents sont sous-utilisés (<10 rapports).
⚠️ Quota OpenRouter: 22.5% en 24h → ALERTE PERF (risque >85% en <5 jours).
❌ Efficacité critique: 1.7% vs 100% attendu.

PROCHAINES ÉTAPES

Appliquer les recommandations urgentes (réaffectation Groq, redémarrage 3100).
Monitorer les quotas (OpenRouter, Groq).
Relancer un audit dans 12h pour valider les gains.

Signataire: PERF (Performance Analyst) Date: 14/04/2026 Statut: INTERVENTION REQUISE

EpsteinFiles & Co — Performance Analyst