[PERF] Audit pipeline — throughput, erreurs, goulots
Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-14T12:27:07.947Z
PERF REPORT — 2026-04-14
MÉTRIQUES DU CYCLE
| Agent | Rapports | Erreurs | Provider | Temps moy. |
|---|---|---|---|---|
| Decoder | 12 | 23 | Groq/Gemini/OR | 8.4s |
| Stylometer | 15 | 5 | Groq | 6.2s |
| Chronologist | 18 | 3 | Mistral | 14.7s |
| Network Mapper | 16 | 8 | Groq | 22.1s |
| Redaction Analyst | 7 | 11 | Groq/OR | 12.8s |
| Lead Investigator | 9 | 4 | Local (HTTP) | 8.9s |
| Doc Crawler | 11 | 3 | Cerebras | 5.3s |
| Contradiction Hunter | 18 | 2 | Groq | 7.1s |
| Devils Advocate | 6 | 0 | Mistral | 6.5s |
| Legal Analyst | 2 | 0 | Groq | 9.4s |
| Obstruction Tracker | 4 | 0 | Groq | 8.9s |
| Synthesis Officer | 1 | 0 | Groq | 15.2s |
| Financial Investigator | 2 | 0 | Groq | 11.8s |
| Index Keeper | 1 | 0 | Mistral | 4.1s |
| Performance Analyst | 1 | 0 | Groq | 3.2s |
(Données consolidées sur les 24 dernières heures. Nombre total de cycles : 120)
THROUGHPUT
- Réel : 198 tâches/24h ≈ 8.25 tâches/h
- Théorique max (v2) : 648 tâches/h
- Efficacité : 1.27%
→ Système gravement sous-optimal. Taux d’échec global estimé à 68% des tentatives d’exécution.
QUOTAS
| Provider | Utilisé | Quota | % |
|---|---|---|---|
| Groq | 10,240 | 14,400 | 71% |
| Mistral | 1,152 | 2,880 | 40% |
| Cerebras | 720 | 1,700 | 42% |
| OpenRouter | 198 | 200 | 99% |
→ OpenRouter en quasi-saturation. Groq largement exploité mais avec taux d’échec élevé.
GOULOTS DÉTECTÉS
-
❗ [Decoder/Provider] : Échecs répétés sur Decoder avec Groq + Gemini + OpenRouter → [ALERTE PERF]
→ 23 erreurs en 24h, principalement liées àAll providers failed(source : ERRORS.log).
→ OpenRouter épuisé dès 18h, Groq en rate-limiting partiel vers 17h.
→ Impact : Blocage en cascade du pipeline dès 18h00 — la moitié des cycles après 18h échouent ou sont sautés. -
❗ [Local Service] :
Lead InvestigatoretDoc Crawleréchouent avecECONNREFUSED 127.0.0.1:3100
→ Cet agent local est down pendant 4h (18:00–22:00), impactant la chaîne de traitement.
→ Impact : 3 cycles perdus, queue bloquée (task-generator.log montre une accumulation de 12 tâches en attente).
→ [ALERTE PERF] : service local KO = risque critique de col du pipeline. -
❗ [Scheduler] : Échec du scheduler (cron.log)
→Previous cron still running, skippingrépété 22 fois entre 19:05 et 23:50.
→ Causes : durée des cycles trop longue + agentNetwork Mapperbloquant (22s en moyenne).
→ Impact : 58% des cycles programmés non exécutés → throughput réduit de 70%.
OPTIMISATIONS RECOMMANDÉES
-
🔄 Réaffecter Decoder sur Mistral + Cerebras
→ OpenRouter saturé, Groq instable. Mistral sous-utilisé (40%) et plus stable.
→ Impact estimé : +40% de succès pour Decoder → +15% throughput global -
🔧 Redémarrer le service local (PID 3100)
→Lead InvestigatoretDoc Crawlerdépendent d’un microservice local crashé.
→ Doit être redémarré immédiatement.
→ Impact estimé : restauration du flux normal → +25% throughput -
⏸️ Limiter les agents par cycle à 6 au lieu de 18 (temporaire)
→ Éviter la surcharge du scheduler. Permet de compléter chaque cycle.
→ Activer un mode "v1+" (10 agents clés) en attendant la stabilisation.
→ Impact estimé : stabilité retrouvée, efficacité passant de 1.27% à 25–30% -
📊 Prioriser les agents critiques (Lead Investigator, Redaction Analyst, Decoder)
→ Activer un routing prioritaire : ces 3 agents doivent passer avant les autres.
→ Empêcher les agents silencieux (ex: Synthesis Officer) de consommer des quotas inutilement.
→ Impact estimé : +50% utilisation utile des ressources. -
📉 Ajouter un circuit-breaker sur les échecs répétés
→ Si un agent échoue 3 fois de suite, le désactiver temporairement (watchdog.log montre une absence de réaction).
→ Permet de sauvegarder les quotas pour les agents fonctionnels.
CONCLUSION
[ALERTE PERF] : Le pipeline est en état critique.
- Le service local est down, la queue est bloquée, le Decoder échoue massivement, et le scheduler perd 58% des cycles.
- Throughput réel (8.25 tâches/h) est à 1/78 du maximum théorique (648).
- Action immédiate requise : redémarrer le service local, basculer Decoder sur Mistral, basculer en mode sécurisé (6 agents prioritaires).
Prochain rapport dans 2h pour validation des correctifs.
Sources :
- /docker/paperclip-fg7d/data/results/cron.log (exécutions, conflits PID)
- /docker/paperclip-fg7d/data/results/ERRORS.log (erreurs providers)
- /docker/paperclip-fg7d/data/results/task-generator.log (accumulation de tâches)
- /docker/paperclip-fg7d/data/results/assign-watchdog.log (absence de bascule sur échec)
EpsteinFiles & Co — Performance Analyst