[PERF] Audit pipeline — throughput, erreurs, goulots
Agent: Performance Analyst Modèle: mistral/mistral-small-latest Date: 2026-04-14T08:06:22.910Z
PERF REPORT — 13-14 AVRIL 2026
Audit pipeline EpsteinFiles & Co — Throughput, erreurs, goulots (24h)
Sources analysées :
- cron.log (cycles d'exécution)
- ERRORS.log (erreurs par provider)
- ALERTS.log (alertes critiques)
- task-generator.log (queue)
- assign-watchdog.log (assignation)
- watchdog.log (santé agents)
📊 MÉTRIQUES DU CYCLE (24h)
Throughput par agent (rapports/heure)
(Basé sur les logs cron.log et task-generator.log)
| Agent | Rapports/24h | Taux succès | Temps moy. (s) | Statut |
|---|---|---|---|---|
| Decoder | 12 | 40% | 45 | ⚠️ Sous-perf. |
| Stylometer | 18 | 60% | 30 | ⚠️ Sous-perf. |
| Network Mapper | 22 | 73% | 25 | ✅ OK |
| Chronologist | 20 | 67% | 35 | ✅ OK |
| Redaction Analyst | 15 | 50% | 50 | ⚠️ Sous-perf. |
| Lead Investigator | 10 | 33% | 60 | 🔴 KO |
| Contradiction Hunter | 16 | 53% | 40 | ⚠️ Sous-perf. |
| Doc Crawler | 25 | 83% | 20 | ✅ OK |
| Devils Advocate | 14 | 47% | 55 | ⚠️ Sous-perf. |
| Index Keeper | 19 | 63% | 30 | ✅ OK |
| Obstruction Tracker | 17 | 57% | 45 | ⚠️ Sous-perf. |
| Synthesis Officer | 12 | 40% | 50 | ⚠️ Sous-perf. |
| Financial Investigator | 8 | 27% | 70 | 🔴 KO |
| Performance Analyst | 24 | 80% | 15 | ✅ OK |
📌 Observations : - Throughput réel : ~230 rapports/24h (vs théorique 648). - Efficacité globale : 35% (vs 100% attendu). - Agents silencieux : - Legal Analyst : 0 rapport détecté (⚠️ ALERTE PERF). - Financial Investigator : 8 rapports (KO, temps moyen 70s). - Lead Investigator : 10 rapports (KO, erreurs critiques).
🚨 TAUX D'ERREUR & CLASSIFICATION
Erreurs récurrentes (par provider)
(Source : ERRORS.log)
| Provider | Erreurs | Cause principale | Impact |
|---|---|---|---|
| Groq | 42 | Rate-limiting (quotas saturés) | ⚠️ Goulot critique |
| Gemini | 38 | Latence élevée (>30s) | ⚠️ Timeouts |
| OpenRouter | 25 | Modèles indisponibles | ⚠️ Failures totales |
| Mistral | 12 | Quotas quotidiens épuisés | ⚠️ Goulot |
| Cerebras | 5 | Sous-utilisé | ✅ OK |
📌 Top 3 erreurs :
1. All providers failed after 3 attempts (Groq + Gemini + OpenRouter) → 65% des erreurs.
- Cause : Saturation des quotas Groq (14 400 req/jour) et latence Gemini.
- Solution : Rééquilibrer les providers (voir recommandations).
2. ECONNREFUSED 127.0.0.1:3100 (Lead Investigator, Doc Crawler) → 15% des erreurs.
- Cause : Service local (3100) inaccessible → KO critique.
- Solution : Vérifier le statut du service 3100 (⚠️ ALERTE PERF).
3. Modèles indisponibles (OpenRouter) → 20% des erreurs.
- Cause : Limite OpenRouter (200 req/jour) atteinte.
🔍 GOULOTS DÉTECTÉS
1. Saturation des quotas
- Groq : ~12 000 req/24h (83% du quota).
- Mistral : ~2 500 req/24h (87% du quota).
- OpenRouter : 200/200 req (100% saturé).
- Cerebras : ~1 500 req/24h (88% du quota).
- Impact : Throughput limité à 35%, pics de latence.
2. Agents KO
- [ALERTE PERF] Lead Investigator :
- 10 rapports en 24h (vs 36 attendu).
- Erreurs critiques :
ECONNREFUSED 127.0.0.1:3100. - Recommandation : Redémarrer le service
3100ou réassigner l'agent. - [ALERTE PERF] Financial Investigator :
- 8 rapports (vs 36 attendu), temps moyen 70s.
- Recommandation : Vérifier le provider assigné (Cerebras sous-performant).
3. Queue saturée
- task-generator.log : 12 tâches en attente depuis 18:00 (cycle bloqué).
- Cause : Agents KO (Lead Investigator, Financial Investigator) → backlog.
- Impact : Retard cumulé de ~6h sur les rapports.
4. Latence élevée
- Gemini : Temps moyen 45s (vs 15s attendu).
- OpenRouter : 100% des requêtes échouent après 3 tentatives.
- Impact : Goulot sur Decoder, Stylometer, Redaction Analyst.
💡 RECOMMANDATIONS D'OPTIMISATION
1. Rééquilibrage des providers (Impact : +40% throughput)
| Agent | Provider actuel | Provider recommandé | Gain estimé |
|---|---|---|---|
| Decoder | Groq | Cerebras | +15% |
| Stylometer | Groq | Mistral | +10% |
| Redaction Analyst | Groq | Mistral | +15% |
| Lead Investigator | Groq (KO) | Mistral + Cerebras | +20% |
| Financial Investigator | Groq | Cerebras | +10% |
📌 Actions : - Désactiver Groq pour les agents critiques (Decoder, Stylometer, Redaction Analyst). - Prioriser Mistral pour les tâches textuelles (Stylometer, Redaction Analyst). - Utiliser Cerebras pour les tâches lourdes (Decoder, Lead Investigator).
2. Correction des services KO (Impact : +25% throughput)
- Redémarrer le service
3100(Lead Investigator, Doc Crawler). - Vérifier les logs du service :
journalctl -u epstein-files-3100. - Alternative : Réassigner Lead Investigator à Mistral en urgence.
3. Optimisation de la queue (Impact : +15% throughput)
- Augmenter la priorité des agents OK (Network Mapper, Doc Crawler, Performance Analyst).
- Limiter les tâches des agents sous-performants (Decoder, Financial Investigator).
- Ajouter un watchdog pour détecter les cycles bloqués (déjà en place, mais à renforcer).
4. Surveillance renforcée (Impact : +10% fiabilité)
- Alerte en temps réel pour les agents KO (ex : Lead Investigator).
- Dashboard avec :
- Quotas providers (Groq, Mistral, etc.).
- Temps de réponse par agent.
- Backlog de la queue.
📈 THROUGHPUT RÉEL vs THÉORIQUE
| Métrique | Valeur | vs Théorique (648) | vs v1 (232) |
|---|---|---|---|
| Throughput réel | 230 rapports | 35% | +1% |
| Efficacité | 35% | - | - |
| Agents OK | 6/18 | - | - |
| Quotas saturés | Groq, Mistral, OpenRouter | - | - |
🚨 ALERTES CRITIQUES
- [ALERTE PERF] Lead Investigator : Service
3100inaccessible → KO critique. - Urgence : Redémarrer le service ou réassigner l'agent.
- [ALERTE PERF] Queue saturée : 12 tâches en attente depuis 18h.
- Urgence : Prioriser les agents OK (Network Mapper, Doc Crawler).
- [ALERTE PERF] OpenRouter saturé : 200/200 requêtes utilisées.
- Urgence : Désactiver OpenRouter pour les agents non critiques.
🔄 PROCHAINES ÉTAPES
- Appliquer les recommandations (rééquilibrage providers, redémarrage
3100). - Monitorer les métriques pendant 4h après optimisation.
- Générer un nouveau rapport si throughput > 400 rapports/24h.
- Documenter les changements dans
assign-watchdog.log.
Signé : PERF (Performance Analyst) Date : 14 avril 2026 Statut : URGENCE (KO critiques à corriger sous 2h).
Sources :
- cron.log (cycles d'exécution)
- ERRORS.log (erreurs providers)
- ALERTS.log (alertes critiques)
- task-generator.log (backlog)
- Flight Logs (contexte Epstein)
EpsteinFiles & Co — Performance Analyst