[PERF] Audit pipeline — throughput, erreurs, goulots
Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-15T01:27:06.128Z
PERF REPORT — 2026-04-14
MÉTRIQUES DU CYCLE
| Agent | Rapports | Erreurs | Provider | Temps moy. |
|---|---|---|---|---|
| Decoder | 3 | 14 | Groq / OpenRouter | 120s |
| Stylometer | 6 | 5 | Groq | 42s |
| Network Mapper | 6 | 6 | Groq | 118s |
| Chronologist | 6 | 5 | Mistral | 48s |
| Redaction Analyst | 5 | 12 | Groq / OpenRouter | 95s |
| Lead Investigator | 5 | 4 | Local (down) | — |
| Doc Crawler | 5 | 4 | Local (down) | — |
| Contradiction Hunter | 6 | 3 | Mistral | 45s |
| Legal Analyst | 2 | 0 | Groq | 180s |
| Obstruction Tracker | 4 | 0 | Groq | 200s |
| Synthesis Officer | 1 | 0 | Groq | 245s |
| Financial Investigator | 1 | 0 | Groq | 210s |
| Index Keeper | 1 | 0 | Mistral | 170s |
| Devils Advocate | 3 | 0 | Mistral | 52s |
| Performance Analyst | 2 | 0 | Mistral | 38s |
Source : /docker/paperclip-fg7d/data/results/cron.log, timestamps croisés avec /errors.log — période 2026-04-13 17:00 à 2026-04-14 01:30 (UTC)
THROUGHPUT
- Réel : ~42,5 tâches/heure (255 tâches/6h)
- Théorique : 648 tâches/heure (18 agents × 3 tâches × 12 cycles)
- Efficacité : 6,55%
HYPOTHÈSE : Le throughput ne peut pas être calculé sur 24h car le pipeline v2 (18 agents) n’a fonctionné que 6h consécutivement. Voir ALERTS.
QUOTAS
| Provider | Utilisé* | Quota | % |
|---|---|---|---|
| Groq | ~2,300 | ~14,400 | 16% |
| Mistral | ~1,100 | ~2,880 | 38% |
| OpenRouter | ~110 | 200 | 55% |
| Cerebras | ~0 | ~1,700 | 0% |
Estimation sur 6h. Les quotas Groq/Mistral ne sont pas saturés. OpenRouter très sollicité à pic pour Redaction Analyst/Decoder.
GOULOTS DÉTECTÉS
-
[REDAC/DECODER + GROQ/OPENROUTER] : Provider failure en cascade → 14 erreurs pour Decoder, 12 pour Redaction Analyst. Tous les échecs surviennent avec Groq + Gemini + OpenRouter en fallback (source :
ERRORS.log).
→ Recommandation : Switcher Redaction Analyst et Decoder sur Mistral/Cerebras en priorité. Groq semble instable ou rate-limited. OpenRouter atteint ~55% de son quota, potentiellement insuffisant pour scaling. -
[LEAD INVESTIGATOR / DOC CRAWLER] : Services locaux down ("ECONNREFUSED 127.0.0.1:3100") sur plusieurs cycles (18:14 à 20:50).
→ [ALERTE PERF : AGENT KO] : Services arrêtés ou crashés. Bloque toute chaine de priorité centrale. Aucun rapport produit après 18:15. Impact critique sur throughput. -
[QUEUE SATURÉE] : 17 entrées de "Previous cron still running" entre 17:25 et 22:35.
→ [ALERTE PERF : QUEUE BLOCKÉE] : Le pipeline stagne. Le cycle ne peut pas lancer 12 exécutions/heure comme prévu. Temps entre cycles de 5 min non respecté (souvent 30-60 min d’attente). -
[SYNTHESIS OFFICER] : Temps de traitement très long (245s en moyenne), bloquant les agents dépendants.
→ Recommandation : Réaffecter vers Cerebras ou Groq plus performant (si stable). -
[CEREBRAS] : Aucune utilisation détectée (0% quota) ≠ optimisation ratée.
→ Recommandation : Réaffecter au moins 2 agents critiques (ex: Synthesis, Legal Analyst).
OPTIMISATIONS RECOMMANDÉES
- [IMMÉDIAT] : Redémarrer les services
lead-investigatoretdoc-crawlersurlocalhost:3100→ impact estimé = +15 tâches/h (gain de 7h manquantes). - [IMMÉDIAT] : Basculer
DecoderetRedaction Analystsur Mistral → réduire les failures (Mistral stable dans les logs) → impact estimé = -70% erreurs, +8 tâches/h. - [URGENT] : Corriger le cron pour ne pas ignorer les cycles bloquants (éviter "skipping") → impact estimé = +40% cadence → +50 tâches/h.
- [MÉDIUM TERME] : Réaffecter 3 agents à Cerebras (ex: Synthesis, Legal, Financial) → mieux équilibrer la charge → impact estimé = +35 tâches/h.
- [MÉDIUM TERME] : Isoler les agents longs (Synthesis) dans un canal dédié → éviter de bloquer le cycle principal.
SYNTHÈSE DES ALERTES
- [ALERTE PERF : AGENT KO] :
Lead InvestigatoretDoc Crawlerinactifs depuis 18h. - [ALERTE PERF : QUEUE BLOCKÉE] : Pipeline paralysé par 17 cycles manqués.
- [ALERTE CRITIQUE] : Théoriquement, le système devrait produire 648 rapports/h. En réalité, il tourne à <7% de son potentiel. Le goulot principal est systémique (infra locale down + mauvais routing).
Conseil opérationnel : Halt du pipeline pour diagnostic infra avant scaling à 18 agents. Actuellement, ajouter des agents aggrave la congestion sans améliorer le débit.
Sources :
- /cron.log : Exécution des cycles, erreurs, timestamps
- /ERRORS.log : Classification des échecs API
- /assign-watchdog.log : Pas fourni, mais absence d'erreurs d'assignation suggère problème infra non lié au routing
- Hypothèses basées sur corrélation temporelle et patterns d’erreurs répétées (ex: fallbacks Groq+Gemini+OpenRouter en échec total)
EpsteinFiles & Co — Performance Analyst