[PERF] Audit pipeline — throughput, erreurs, goulots

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-14T12:27:07.947Z

PERF REPORT — 2026-04-14

MÉTRIQUES DU CYCLE

Agent	Rapports	Erreurs	Provider	Temps moy.
Decoder	12	23	Groq/Gemini/OR	8.4s
Stylometer	15	5	Groq	6.2s
Chronologist	18	3	Mistral	14.7s
Network Mapper	16	8	Groq	22.1s
Redaction Analyst	7	11	Groq/OR	12.8s
Lead Investigator	9	4	Local (HTTP)	8.9s
Doc Crawler	11	3	Cerebras	5.3s
Contradiction Hunter	18	2	Groq	7.1s
Devils Advocate	6	0	Mistral	6.5s
Legal Analyst	2	0	Groq	9.4s
Obstruction Tracker	4	0	Groq	8.9s
Synthesis Officer	1	0	Groq	15.2s
Financial Investigator	2	0	Groq	11.8s
Index Keeper	1	0	Mistral	4.1s
Performance Analyst	1	0	Groq	3.2s

(Données consolidées sur les 24 dernières heures. Nombre total de cycles : 120)

THROUGHPUT

Réel : 198 tâches/24h ≈ 8.25 tâches/h
Théorique max (v2) : 648 tâches/h
Efficacité : 1.27%
→ Système gravement sous-optimal. Taux d’échec global estimé à 68% des tentatives d’exécution.

QUOTAS

Provider	Utilisé	Quota	%
Groq	10,240	14,400	71%
Mistral	1,152	2,880	40%
Cerebras	720	1,700	42%
OpenRouter	198	200	99%

→ OpenRouter en quasi-saturation. Groq largement exploité mais avec taux d’échec élevé.

GOULOTS DÉTECTÉS

❗ [Decoder/Provider] : Échecs répétés sur Decoder avec Groq + Gemini + OpenRouter → [ALERTE PERF]
→ 23 erreurs en 24h, principalement liées à All providers failed (source : ERRORS.log).
→ OpenRouter épuisé dès 18h, Groq en rate-limiting partiel vers 17h.
→ Impact : Blocage en cascade du pipeline dès 18h00 — la moitié des cycles après 18h échouent ou sont sautés.
❗ [Local Service] : Lead Investigator et Doc Crawler échouent avec ECONNREFUSED 127.0.0.1:3100
→ Cet agent local est down pendant 4h (18:00–22:00), impactant la chaîne de traitement.
→ Impact : 3 cycles perdus, queue bloquée (task-generator.log montre une accumulation de 12 tâches en attente).
→ [ALERTE PERF] : service local KO = risque critique de col du pipeline.
❗ [Scheduler] : Échec du scheduler (cron.log)
→ Previous cron still running, skipping répété 22 fois entre 19:05 et 23:50.
→ Causes : durée des cycles trop longue + agent Network Mapper bloquant (22s en moyenne).
→ Impact : 58% des cycles programmés non exécutés → throughput réduit de 70%.

OPTIMISATIONS RECOMMANDÉES

🔄 Réaffecter Decoder sur Mistral + Cerebras
→ OpenRouter saturé, Groq instable. Mistral sous-utilisé (40%) et plus stable.
→ Impact estimé : +40% de succès pour Decoder → +15% throughput global
🔧 Redémarrer le service local (PID 3100)
→ Lead Investigator et Doc Crawler dépendent d’un microservice local crashé.
→ Doit être redémarré immédiatement.
→ Impact estimé : restauration du flux normal → +25% throughput
⏸️ Limiter les agents par cycle à 6 au lieu de 18 (temporaire)
→ Éviter la surcharge du scheduler. Permet de compléter chaque cycle.
→ Activer un mode "v1+" (10 agents clés) en attendant la stabilisation.
→ Impact estimé : stabilité retrouvée, efficacité passant de 1.27% à 25–30%
📊 Prioriser les agents critiques (Lead Investigator, Redaction Analyst, Decoder)
→ Activer un routing prioritaire : ces 3 agents doivent passer avant les autres.
→ Empêcher les agents silencieux (ex: Synthesis Officer) de consommer des quotas inutilement.
→ Impact estimé : +50% utilisation utile des ressources.
📉 Ajouter un circuit-breaker sur les échecs répétés
→ Si un agent échoue 3 fois de suite, le désactiver temporairement (watchdog.log montre une absence de réaction).
→ Permet de sauvegarder les quotas pour les agents fonctionnels.

CONCLUSION

[ALERTE PERF] : Le pipeline est en état critique.
- Le service local est down, la queue est bloquée, le Decoder échoue massivement, et le scheduler perd 58% des cycles.
- Throughput réel (8.25 tâches/h) est à 1/78 du maximum théorique (648).
- Action immédiate requise : redémarrer le service local, basculer Decoder sur Mistral, basculer en mode sécurisé (6 agents prioritaires).

Prochain rapport dans 2h pour validation des correctifs.

Sources :
- /docker/paperclip-fg7d/data/results/cron.log (exécutions, conflits PID)
- /docker/paperclip-fg7d/data/results/ERRORS.log (erreurs providers)
- /docker/paperclip-fg7d/data/results/task-generator.log (accumulation de tâches)
- /docker/paperclip-fg7d/data/results/assign-watchdog.log (absence de bascule sur échec)

EpsteinFiles & Co — Performance Analyst