PERF — Qualité vs quantité par modèle
Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-13T19:40:16.066Z
🔍 Rapport de Performance — TÂCHE EPS-76: Qualité vs Quantité par Modèle
Analyste : Performance Analyst (EpsteinFiles & Co.)
Date : 2026-04-13T20:00:45Z
Source des données : /paperclip/results/ (rapports générés), cron.log, ERRORS.log
1. MÉTRIQUES DE THROUGHPUT
📊 Tâches par période
| Heure | Cycle Cron | Tâches réussies | Tâches échouées | Skip (lock) | Durée totale |
|---|---|---|---|---|---|
| 17:16 | 1 | 6 | 2 | 0 | 47 s |
| 18:00 | 2 | 5 | 3 | 0 | 8:51 |
| 18:30 | 3 | 8 | 0 | 0 | 7:41 |
| 19:00 | 4 | ≥7 | 0 (en cours) | 5 skips | ~30 min |
⏱️ Temps moyen par agent (sur tâches réussies)
| Agent | Moyenne estimée (s) | Max observé (s) |
|---|---|---|
| Chronologist | 60 | 80 |
| Doc Crawler | 90 | 120 |
| Contradiction Hunter | 100 | 135 |
| Decoder | 100+ (chaotique) | >300 (échecs) |
| Network Mapper | 200+ | 380 (17:24) |
| Redaction Analyst | 60 | 100 |
| Devils Advocate | 60 | 80 |
Observation : Le Network Mapper est clairement le plus lent (3-5 min). Le Doc Crawler et Contradiction Hunter ont une charge textuelle importante. Le Decoder est instable en temps.
✅ vs ❌ par provider (via log d’erreurs)
| Provider | Échecs (ERRORS.log) | % du total | Modèles impliqués |
|---|---|---|---|
| Groq | 42 | ~78% | Llama3.1-8b, Llama3-70b |
| OpenRouter | 5 | ~9% | Mix modèles |
| Gemini | 5 | ~9% | Gemini Pro |
| Cerebras | 0 | 0% | Qwen2-72b, Llama3.1-8b |
[ALERTE] Groq échoue massivement entre 17h15 et 18h15, période critique avec ~35 erreurs. Les échecs surviennent en cluster, suggérant un rate limiting ou downtime du provider.
2. DIAGNOSTIC DES ERREURS
🔍 Analyse ERRORS.log
- 13:50 – 16:00: Rares erreurs (5 sur 2h) → période stable.
- 16:02 – 18:02: 40 erreurs en 2h → pic à 17:50–18:02 (13 erreurs en 12 min)
- Période critique : toutes les erreurs passent par Groq + Gemini + OpenRouter, mais Groq est systématiquement en tête.
- Toutes les tâches échouent après 3 tentatives → pas de failover rapide.
🔎 Patterns identifiés
- Pattern 1 : Échecs en cascade sur Decoder et Redaction Analyst à 18h00, causés par Groq timeout.
- Pattern 2 : En même temps, le cron se bloquait → lockfile non nettoyé → 5 cycles skip en 30 min → gaspillage de ~40 tâches potentielles.
- Pattern 3 : Cerebras n’apparaît jamais dans les erreurs → plus stable que Groq et Gemini sur cette période.
[ALERTE] Groq est devenu instable pendant la fenêtre 17:50–18:10, probablement en raison d’un pic de charge (usage généralisé au niveau global). Cela a bloqué tout le pipeline.
3. QUALITÉ DES SORTIES PAR MODÈLE
J'ai analysé 5 échantillons récents de /paperclip/results/ avec 3 critères :
- Longueur moyenne (mots)
- Structure (liste, tableau, sectionnement)
- Profondeur analytique (données brutes → interprétation → hypothèse)
| Modèle | Moy. mots | Structure | Profondeur | Clarté fr. | Qualité globale |
|---|---|---|---|---|---|
| cerebras/llama3.1-8b | ~1 800 | Bonne | Moyenne | Moyenne | 6/10 |
| mistral/mistral-small-latest | ~2 400 | Très bonne | Élevée | Excellente | 9/10 |
| groq/llama3-70b | ~800 (rare) | Simpliste | Basse | Moyenne | 4/10 |
| groq/llama3.1-8b | Données absentes (échecs) | – | – | – | – |
🔬 Comparaison détaillée
| Critère | Mistral | Cerebras | Groq |
|---|---|---|---|
| Longueur du rapport | 2.4k mots (max) | 1.8k mots | <1k mots |
| Tableaux / listes | ✅ Oui (Doc Crawler, Contradiction Hunter) | ⚠️ Parfois | ❌ Jamais |
| Niveau FAIT vs HYPOTHÈSE | ✅ Explicité (Lead, Decoder) | ⚠️ Implicité | ❌ Absent |
| Gestion du français | ✅ Fluidité, tournures idiomatiques | ⚠️ Parfois anglicisme | ❌ Génération binaire |
| Fuite de tokens | ✅ Très bon contrôle | ✅ Bon | ❌ Rush & cutoff (Chronologist tronqué) |
Conclusion claire : - Mistral est supérieur en qualité d’output, surtout pour le français, la structure, et la logique analytique. - Cerebras est bon, mais moins riche en formulation — il génère plus sec. - Groq n’est plus opérationnel sur cette fenêtre : les outputs sont rares, courts, ou inexistants.
4. ROUTING & OPTIMISATION
🧭 Répartition actuelle (hypothèse basée sur les logs)
- Decoder, Redaction Analyst, Doc Crawler : majoritairement Groq, puis fallback → fail.
- Lead Investigator, Contradiction Hunter : Mistral
- Devils Advocate, Chronologist : Cerebras
- Stylometer, Network Mapper : équilibré ? (pas de rapport donné)
🚨 Problèmes identifiés
- Encoder sur Groq en période de pic → échec total
- Pas de routing prioritaire basé sur le modèle qualité → on gaspille des tâches critiques
- Mistral sous-utilisé alors qu’il fournit les meilleurs rapports
- Cerebras stable mais sous-exploité en charge lourde (ex: Network Mapper)
🔄 Suggestions de routing optimal
| Agent | Optimal Provider | Raison |
|---|---|---|
| Contradiction Hunter | Mistral | Qualité texte, analyse comparative, français |
| Lead Investigator | Mistral | Nécessite structure logique + vocabulaire riche |
| Decoder | Mistral | Gestion des hypothèses / faits → supérieur |
| Redaction Analyst | Mistral | Moins de tokens, qualité élevée |
| Doc Crawler | Mistral | Très bon en tableaux, clarté |
| Chronologist | Cerebras ou Mistral | Stable, timing bon |
| Network Mapper | Cerebras ou Mistral | Groq trop lent/erratique |
| Devils Advocate | Cerebras/Mistral | Aucune différence notable |
⚠️ Groq ne devrait être utilisé qu’en dernier recours ou hors pics.
5. GESTION DES QUOTAS
🗓️ Quotas (estimation)
| Provider | Quota journalier (estimé) | Usage réel (estimé 26-04) | % utilisé |
|---|---|---|---|
| Groq | 500k tokens | ~420k (mais 0% utilisables vers 18h) | ~84% |
| Mistral | 200k tokens | ~90k | ~45% |
| Cerebras | 200k tokens | ~110k | ~55% |
✅ Cerebras et Mistral ont encore 50–100k tokens disponibles à 20:00 → gâchis potentiel à minuit.
❌ Groq est saturé mais ne produit rien → token perdu malgré consommation.
✅ RECOMMANDATIONS (Action — Impact — Effort)
| ACTION | IMPACT ESTIMÉ | EFFORT |
|---|---|---|
| 1. [URGENT] Basculer Decoder, Redaction Analyst, Doc Crawler sur Mistral | +35% taux de succès, +40% qualité rapports | 10 min (config) |
| 2. [URGENT] Retirer Groq du routing principal entre 17:00–19:00 | -70% échecs, libération de tentatives pour d'autres providers | 5 min |
| 3. [URGENT] Ajouter retry avec timeout court (5s) et switcher après 1 échec Groq | +20% throughput en période de pic | 15 min (code) |
| 4. Rééquilibrer Cron pour éviter les lockfiles (espacer 9 min entre cycles) | -5 skips/cycle, +7 rapports/jour | 5 min (crontab) |
| 5. Utiliser les tokens restants sur Mistral/Cerebras en batch 19:30–23:59 | +120k tokens exploités → +40 rapports potentiels | 10 min (script d’appoint) |
| 6. Mettre en place monitoring par provider (dashboard simple /health) | Détection précoce de panne, éviter blocage pipeline | 30 min (POC) |
🔚 Synthèse Finale
| Modèle | Qualité sortie | Fiabilité | Recommandé ? |
|---|---|---|---|
| Mistral/mistral-small-latest | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐☆ | ✅ PRIORITAIRE |
| Cerebras/llama3.1-8b | ⭐⭐⭐⭐☆ | ⭐⭐⭐⭐⭐ | ✅ Oui (back-up solide) |
| Groq/llama3-70b | ⭐⭐☆☆☆ | ⭐☆☆☆☆ | ❌ À éviter en journée |
| Groq/llama3.1-8b | Données rares | ⭐☆☆☆☆ | ❌ Non fiable |
✅ Mistral est le meilleur compromis qualité/rapidité/français.
🛑 Groq est en surcharge chronique.
💡 **Maximiser l'
EpsteinFiles & Co — Performance Analyst