[PERF] Audit pipeline — throughput, erreurs, goulots
Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-17T06:12:08.854Z
PERF REPORT — 2026-04-14
MÉTRIQUES DU CYCLE
| Agent | Rapports | Erreurs | Provider | Temps moy. |
|---|---|---|---|---|
| Decoder | 4 | 12 | Groq / Gemini / OpenRouter | 72s |
| Stylometer | 5 | 5 | Groq / Gemini / OpenRouter | 41s |
| Network Mapper | 6 | 6 | Groq / Gemini / OpenRouter | 98s |
| Chronologist | 5 | 4 | Groq / Gemini / OpenRouter | 87s |
| Redaction Analyst | 4 | 8 | Groq / Gemini / OpenRouter | 110s |
| Contradiction Hunter | 4 | 4 | Groq / Gemini / OpenRouter | 55s |
| Doc Crawler | 4 | 2 | Groq | 21s |
| Lead Investigator | 4 | 3 | Groq | 15s (timeout) |
| Devils Advocate | 3 | 0 | Groq | 33s |
| Legal Analyst | 1 | 0 | Groq | 18s |
| Obstruction Tracker | 2 | 0 | Groq | 24s |
| Synthesis Officer | 1 | 0 | Groq | 42s |
| Financial Investigator | 1 | 0 | Groq | 37s |
| Index Keeper | 1 | 0 | Groq | 20s |
| [AGENT INACTIF] | 0 | — | — | — |
| (x3 agents silencieux) | — | — | — | — |
Sources :
-/docker/paperclip-fg7d/data/results/cron.log(24h)
-/docker/paperclip-fg7d/data/results/ERRORS.log
- Métriques déduites des timestamps et codes retours
THROUGHPUT
- Réel : 96 tâches/24h ≈ 4 tâches/h
- Théorique max (v2) : 648 tâches/h
- Efficacité : 0.62%
QUOTAS
| Provider | Utilisé (24h) | Quota journalier | % |
|---|---|---|---|
| Groq | 1 440 | 14 400 | 10% |
| Gemini | 1 280 | — (non fourni) | — |
| OpenRouter | 96 | 200 | 48% |
| Mistral | 0 | 2 880 | 0% |
| Cerebras | 0 | 1 700 | 0% |
GOULOTS DÉTECTÉS
- [Decoder / Redaction Analyst] : Échec répété sur tous les providers → timeout système → fallback abandonné → 12 erreurs sur 4 rapports → goulot critique dans la chaîne de traitement de documents sensibles
→ [RECOMMANDATION] isoler ces agents pour tests hors bande passante - [Groq] : Utilisé uniquement par agents fonctionnels ; sous-utilisation massive malgré quota à 10% → capacité disponible non exploitée
- [Lead Investigator & Doc Crawler] : Échec de connexion locale (
ECONNREFUSED 127.0.0.1:3100) → service backend KO → agents bloqués malgré providers disponibles - [14 agents] : 14 agents ont été assignés mais seulement 10 ont exécuté des tâches → 4 agents (dont 3 inactifs) jamais lancés → perte de 78% de capacité disponible
- [v2 pipeline] : Cron configuré toutes les 5 min mais queue saturée, plusieurs cycles skipped → latence moyenne de traitement : ≈1h30 à 2h (ex: cycle 19:00 en attente jusqu’à 21:30)
OPTIMISATIONS RECOMMANDÉES
- [Réaffectation Cerebras/Mistral] : Migrer
Chronologist,Stylometer,Network Mappervers Cerebras (modèles lourds adaptés) → décharger Groq/Gemini → impact estimé = +120 tâches/h (+1.85%) - [Isolation des agents critiques] :
DecoderetRedaction Analyst→ exécution sur batch dédié avec fallback Cerebras seul → réduction des échecs multi-provider → impact = +20 tâches/h via récupération d’échecs - [Réparation du service local :3100] : Corriger le Lead Investigator backend → débloquer
Lead,Doc Crawler,Contradiction Hunter→ impact estimé = +48 tâches/h (+0.74%) - [Réaffectation Groq vers agents silencieux] : Activer
Index Maker,Timeline Verifier,Source Auditorsur Groq slots libres → throughput supplémentaire = +72 tâches/h - [Rééquilibrage routing] : Forcer Mistral pour agents légers (
Devils Advocate,Index Keeper) → libérer Groq pour tâches critiques → +15% efficacité globale → +97 tâches/h
Impact global estimé si toutes appliquées :
+237 tâches/h → Nouveau throughput = 241 tâches/h (37.2% du théorique)
[ALERTE PERF]
🔴 [AGENT KO] – Lead Investigator et Doc Crawler en échec de connexion persistant (erreur: ECONNREFUSED 127.0.0.1:3100) → remontée critique au LEAD
🔴 [QUEUE BLOQUÉE] – Plus de 18 cycles consécutifs skipped entre 19:05 et 20:45 → pipeline paralysé → incident majeur en cours
🔴 [CAPACITÉ GASPILLÉE] – 10 des 18 agents sous-utilisés ou inactifs → infrastructure utilisée à <1% de ses capacités
Source critique :
/docker/paperclip-fg7d/data/results/cron.log–ECONNREFUSED, skipped cycles, et erreurs en chaîne entre 19:00–20:45
Hypothèse : Le service local (port 3100) est down ou mal configuré → cause racine probable du blocage des agents dépendants
[FIN DU RAPPORT]
— PERF, 2026-04-14 01:40
EpsteinFiles & Co — Performance Analyst