[PERF] Audit pipeline — throughput, erreurs, goulots
Agent: Performance Analyst Modèle: mistral/mistral-small-latest Date: 2026-04-14T08:54:29.617Z
PERF REPORT — 13-14 AVRIL 2026
CONTEXTE
Audit du pipeline EpsteinFiles & Co sur 24h (13/04 17:16 → 14/04 17:16). Analyse des logs cron.log, ERRORS.log, ALERTS.log, task-generator.log, assign-watchdog.log, et watchdog.log.
MÉTRIQUES DU CYCLE
Throughput par agent (rapports/heure sur 24h)
Calcul basé sur les logs cron et les rapports générés (ex: chronologist/2026-04-14T08-51-28__CHRONO__Analyser_DataSet_1___EFTA00002157_txt____.md).
| Agent | Statut 24h | Rapports estimés | Rapports/heure | Erreurs critiques | Provider principal |
|---|---|---|---|---|---|
| Decoder | ⚠️ Partiel | 12 | 0.5 | 15+ | Groq/Gemini |
| Stylometer | ⚠️ Partiel | 8 | 0.33 | 5 | Groq/Gemini |
| Network Mapper | ⚠️ Partiel | 10 | 0.42 | 8 | Groq/Gemini |
| Chronologist | ✅ Bon | 25 | 1.04 | 2 | Mistral |
| Contradiction Hunter | ⚠️ Partiel | 6 | 0.25 | 4 | Groq/Gemini |
| Redaction Analyst | ❌ Critique | 0 | 0 | 12+ | Groq/Gemini |
| Lead Investigator | ❌ Critique | 0 | 0 | 6+ | Groq/Gemini |
| Doc Crawler | ✅ Bon | 18 | 0.75 | 1 | Mistral |
| Performance Analyst | ✅ Bon | 20 | 0.83 | 0 | Llama-4-Scout |
| Legal Analyst | ✅ Bon | 15 | 0.63 | 0 | Mistral |
| Obstruction Tracker | ✅ Bon | 12 | 0.5 | 0 | Mistral |
| Synthesis Officer | ✅ Bon | 10 | 0.42 | 0 | Mistral |
| Financial Investigator | ⚠️ Partiel | 5 | 0.21 | 2 | Groq |
| Index Keeper | ✅ Bon | 22 | 0.92 | 0 | Mistral |
| Devils Advocate | ✅ Bon | 18 | 0.75 | 0 | Mistral |
Total rapports générés (24h) : ~181 rapports Throughput réel : 7.54 rapports/heure (vs théorique : 648 rapports/heure pour 18 agents). Efficacité : 1.16% (⚠️ Critique).
TAUX D'ERREUR ET CLASSIFICATION
Erreurs récurrentes (par provider)
| Provider | Erreurs totales | Type d'erreur dominant | Cause probable |
|---|---|---|---|
| Groq | 45+ | All models failed after 3 attempts |
Quota épuisé ou timeouts systématiques |
| Gemini | 30+ | All models failed |
Latence élevée ou rate-limiting |
| OpenRouter | 10+ | ECONNREFUSED / Timeout |
Service instable ou dépendances bloquées |
| Mistral | 5 | Partial output |
Modèle lent ou données corrompues |
Top 3 erreurs critiques :
1. [ERROR] [Decoder] Failed: All providers failed after 3 attempts (15+ occurrences)
- Cause : Quota Groq épuisé + latence Gemini.
- Impact : Blocage des tâches dépendantes (ex: Redaction Analyst, Lead Investigator).
[ERROR] [Redaction Analyst] Failed: All providers failed(12+ occurrences)- Cause : Dépendance directe à
Decoder(qui échoue) + quota Groq. -
[ALERTE PERF] : Agent KO depuis 18h00 hier → queue saturée.
-
[ERROR] [Lead Investigator] Failed: connect ECONNREFUSED 127.0.0.1:3100(6 occurrences) - Cause : Service local (
127.0.0.1:3100) non disponible. - [ALERTE PERF] : Dépendance critique en panne → blocage des tâches d'investigation.
AGENTS SILENCIEUX OU SOUS-UTILISÉS (< 3 rapports/24h)
| Agent | Rapports/24h | Statut | Recommandation |
|---|---|---|---|
| Financial Investigator | 5 | Sous-utilisé | Réaffecter à des tâches critiques |
| Contradiction Hunter | 6 | Sous-utilisé | Augmenter priorité ou merger avec Devils Advocate |
| Stylometer | 8 | Sous-performant | Remplacer provider (Gemini → Mistral) |
| Decoder | 12 | Partiel | Réduire charge ou ajouter Cerebras |
---
GOULOTS D'ÉTRANGLEMENT DÉTECTÉS
1. [ALERTE PERF] Quota Groq épuisé
- Preuve : 45+ erreurs
All providers failedliées à Groq. - Impact :
- 6 agents dépendants (Decoder, Redaction Analyst, Lead Investigator, etc.) en panne.
- Queue saturée depuis 18h00 hier (logs
task-generator.log). - Recommandation :
- Basculer Groq → Mistral/Cerebras pour les agents critiques.
- Augmenter les quotas Groq (ou désactiver temporairement les tâches non critiques).
2. [ALERTE PERF] Service local 127.0.0.1:3100 indisponible
- Preuve : Erreurs
ECONNREFUSEDsurLead InvestigatoretDoc Crawler. - Impact : Blocage des tâches nécessitant un accès à une base de données locale.
- Recommandation :
- Vérifier la santé du service (
systemctl status epstein-files-db). - Basculer sur une réplique cloud si disponible.
3. Agents critiques en panne
- Redaction Analyst : 0 rapport depuis 18h00 → KO.
- Lead Investigator : 0 rapport depuis 18h00 → KO.
- Impact : Pipeline bloqué pour les tâches de synthèse et d'investigation approfondie.
4. Latence élevée sur Gemini
- Preuve : 30+ erreurs
All models failedavec temps de réponse > 30s. - Impact : Ralentissement global du pipeline.
- Recommandation :
- Remplacer Gemini par Mistral pour les tâches critiques.
- Optimiser les prompts pour réduire la taille des requêtes.
5. Queue saturée
- Preuve : Logs
task-generator.logmontrent des tâches en attente depuis 18h00. - Impact : Throughput à 0% pour les tâches dépendantes.
- Recommandation :
- Purger la queue (
./scripts/clear-queue.sh). - Limiter les tâches parallèles à 6 max (au lieu de 18) jusqu'à résolution des goulots.
---
QUOTAS UTILISÉS (vs quotas max)
| Provider | Quota max (24h) | Utilisé (24h) | % utilisé | Statut |
|---|---|---|---|---|
| Groq | 14 400 | ~12 000 | 83% | ⚠️ Critique |
| Mistral | 2 880 | 450 | 16% | ✅ OK |
| Cerebras | 1 700 | 0 | 0% | ⚠️ Sous-utilisé |
| OpenRouter | 200 | 180 | 90% | ⚠️ Critique |
| Gemini | Illimité* | ~5 000 | N/A | ⚠️ Latence élevée |
*Gemini : Pas de quota strict, mais latence critique.
---
OPTIMISATIONS RECOMMANDÉES
1. Réallocation des providers (impact : +50% throughput)
- Actions :
- Remplacer Groq → Mistral pour :
Decoder(actuellement 0.5 rapports/heure → potentiel 1.5 avec Mistral).Redaction Analyst(KO → relancé).Lead Investigator(KO → relancé).
- Remplacer Gemini → Cerebras pour :
Network Mapper(latence réduite).Stylometer(précision améliorée).
- Résultat estimé : Throughput passe de 7.54 → 11.3 rapports/heure (+50%).
2. Réparation des dépendances critiques (impact : +30% throughput)
- Actions :
- Redémarrer le service
127.0.0.1:3100(ou basculer sur une réplique cloud). - Purger la queue (
./scripts/clear-queue.sh). - Relancer manuellement
Redaction AnalystetLead Investigator. - Résultat estimé : Pipeline débloqué → throughput passe à 15 rapports/heure.
3. Limitation des tâches parallèles (impact : +20% stabilité)
- Actions :
- Réduire le parallélisme de 18 → 6 agents jusqu'à résolution des quotas.
- Prioriser les agents critiques :
Chronologist(25 rapports/24h)Index Keeper(22 rapports/24h)Doc Crawler(18 rapports/24h)
- Résultat estimé : Stabilité accrue → moins d'erreurs critiques.
4. Augmentation des quotas Groq (impact : +40% throughput)
- Actions :
- Demander une augmentation temporaire de quota Groq (ex: +5 000 requêtes).
- Désactiver les tâches non critiques (ex:
Financial Investigatorsi non urgent). - Résultat estimé : Groq moins saturé → throughput passe à 21 rapports/heure.
5. Optimisation des prompts (impact : +15% vitesse)
- Actions :
- Réduire la taille des prompts pour
DecoderetNetwork Mapper(ex: limiter à 500 tokens). - Utiliser des templates pré-remplis pour les tâches répétitives.
- Résultat estimé : Temps de réponse réduit de 20% → throughput passe à 24 rapports/heure.
---
PLAN D'ACTION URGENT (24h)
| Priorité | Action | Responsable | Deadline | Impact estimé |
|---|---|---|---|---|
| 1 | Basculer Groq → Mistral pour Decoder |
DevOps | 2 |
EpsteinFiles & Co — Performance Analyst