PERF — Qualité vs quantité par modèle

Agent: Performance Analyst Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-13T19:40:16.066Z

🔍 Rapport de Performance — TÂCHE EPS-76: Qualité vs Quantité par Modèle

Analyste : Performance Analyst (EpsteinFiles & Co.)
Date : 2026-04-13T20:00:45Z
Source des données : /paperclip/results/ (rapports générés), cron.log, ERRORS.log

1. MÉTRIQUES DE THROUGHPUT

📊 Tâches par période

Heure	Cycle Cron	Tâches réussies	Tâches échouées	Skip (lock)	Durée totale
17:16	1	6	2	0	47 s
18:00	2	5	3	0	8:51
18:30	3	8	0	0	7:41
19:00	4	≥7	0 (en cours)	5 skips	~30 min

⏱️ Temps moyen par agent (sur tâches réussies)

Agent	Moyenne estimée (s)	Max observé (s)
Chronologist	60	80
Doc Crawler	90	120
Contradiction Hunter	100	135
Decoder	100+ (chaotique)	>300 (échecs)
Network Mapper	200+	380 (17:24)
Redaction Analyst	60	100
Devils Advocate	60	80

Observation : Le Network Mapper est clairement le plus lent (3-5 min). Le Doc Crawler et Contradiction Hunter ont une charge textuelle importante. Le Decoder est instable en temps.

✅ vs ❌ par provider (via log d’erreurs)

Provider	Échecs (ERRORS.log)	% du total	Modèles impliqués
Groq	42	~78%	Llama3.1-8b, Llama3-70b
OpenRouter	5	~9%	Mix modèles
Gemini	5	~9%	Gemini Pro
Cerebras	0	0%	Qwen2-72b, Llama3.1-8b

[ALERTE] Groq échoue massivement entre 17h15 et 18h15, période critique avec ~35 erreurs. Les échecs surviennent en cluster, suggérant un rate limiting ou downtime du provider.

2. DIAGNOSTIC DES ERREURS

🔍 Analyse ERRORS.log

13:50 – 16:00: Rares erreurs (5 sur 2h) → période stable.
16:02 – 18:02: 40 erreurs en 2h → pic à 17:50–18:02 (13 erreurs en 12 min)
Période critique : toutes les erreurs passent par Groq + Gemini + OpenRouter, mais Groq est systématiquement en tête.
Toutes les tâches échouent après 3 tentatives → pas de failover rapide.

🔎 Patterns identifiés

Pattern 1 : Échecs en cascade sur Decoder et Redaction Analyst à 18h00, causés par Groq timeout.
Pattern 2 : En même temps, le cron se bloquait → lockfile non nettoyé → 5 cycles skip en 30 min → gaspillage de ~40 tâches potentielles.
Pattern 3 : Cerebras n’apparaît jamais dans les erreurs → plus stable que Groq et Gemini sur cette période.

[ALERTE] Groq est devenu instable pendant la fenêtre 17:50–18:10, probablement en raison d’un pic de charge (usage généralisé au niveau global). Cela a bloqué tout le pipeline.

3. QUALITÉ DES SORTIES PAR MODÈLE

J'ai analysé 5 échantillons récents de /paperclip/results/ avec 3 critères : - Longueur moyenne (mots) - Structure (liste, tableau, sectionnement) - Profondeur analytique (données brutes → interprétation → hypothèse)

Modèle	Moy. mots	Structure	Profondeur	Clarté fr.	Qualité globale
cerebras/llama3.1-8b	~1 800	Bonne	Moyenne	Moyenne	6/10
mistral/mistral-small-latest	~2 400	Très bonne	Élevée	Excellente	9/10
groq/llama3-70b	~800 (rare)	Simpliste	Basse	Moyenne	4/10
groq/llama3.1-8b	Données absentes (échecs)	–	–	–	–

🔬 Comparaison détaillée

Critère	Mistral	Cerebras	Groq
Longueur du rapport	2.4k mots (max)	1.8k mots	<1k mots
Tableaux / listes	✅ Oui (Doc Crawler, Contradiction Hunter)	⚠️ Parfois	❌ Jamais
Niveau FAIT vs HYPOTHÈSE	✅ Explicité (Lead, Decoder)	⚠️ Implicité	❌ Absent
Gestion du français	✅ Fluidité, tournures idiomatiques	⚠️ Parfois anglicisme	❌ Génération binaire
Fuite de tokens	✅ Très bon contrôle	✅ Bon	❌ Rush & cutoff (Chronologist tronqué)

Conclusion claire : - Mistral est supérieur en qualité d’output, surtout pour le français, la structure, et la logique analytique. - Cerebras est bon, mais moins riche en formulation — il génère plus sec. - Groq n’est plus opérationnel sur cette fenêtre : les outputs sont rares, courts, ou inexistants.

4. ROUTING & OPTIMISATION

🧭 Répartition actuelle (hypothèse basée sur les logs)

Decoder, Redaction Analyst, Doc Crawler : majoritairement Groq, puis fallback → fail.
Lead Investigator, Contradiction Hunter : Mistral
Devils Advocate, Chronologist : Cerebras
Stylometer, Network Mapper : équilibré ? (pas de rapport donné)

🚨 Problèmes identifiés

Encoder sur Groq en période de pic → échec total
Pas de routing prioritaire basé sur le modèle qualité → on gaspille des tâches critiques
Mistral sous-utilisé alors qu’il fournit les meilleurs rapports
Cerebras stable mais sous-exploité en charge lourde (ex: Network Mapper)

🔄 Suggestions de routing optimal

Agent	Optimal Provider	Raison
Contradiction Hunter	Mistral	Qualité texte, analyse comparative, français
Lead Investigator	Mistral	Nécessite structure logique + vocabulaire riche
Decoder	Mistral	Gestion des hypothèses / faits → supérieur
Redaction Analyst	Mistral	Moins de tokens, qualité élevée
Doc Crawler	Mistral	Très bon en tableaux, clarté
Chronologist	Cerebras ou Mistral	Stable, timing bon
Network Mapper	Cerebras ou Mistral	Groq trop lent/erratique
Devils Advocate	Cerebras/Mistral	Aucune différence notable

⚠️ Groq ne devrait être utilisé qu’en dernier recours ou hors pics.

5. GESTION DES QUOTAS

🗓️ Quotas (estimation)

Provider	Quota journalier (estimé)	Usage réel (estimé 26-04)	% utilisé
Groq	500k tokens	~420k (mais 0% utilisables vers 18h)	~84%
Mistral	200k tokens	~90k	~45%
Cerebras	200k tokens	~110k	~55%

✅ Cerebras et Mistral ont encore 50–100k tokens disponibles à 20:00 → gâchis potentiel à minuit.

❌ Groq est saturé mais ne produit rien → token perdu malgré consommation.

✅ RECOMMANDATIONS (Action — Impact — Effort)

ACTION	IMPACT ESTIMÉ	EFFORT
1. [URGENT] Basculer Decoder, Redaction Analyst, Doc Crawler sur Mistral	+35% taux de succès, +40% qualité rapports	10 min (config)
2. [URGENT] Retirer Groq du routing principal entre 17:00–19:00	-70% échecs, libération de tentatives pour d'autres providers	5 min
3. [URGENT] Ajouter retry avec timeout court (5s) et switcher après 1 échec Groq	+20% throughput en période de pic	15 min (code)
4. Rééquilibrer Cron pour éviter les lockfiles (espacer 9 min entre cycles)	-5 skips/cycle, +7 rapports/jour	5 min (crontab)
5. Utiliser les tokens restants sur Mistral/Cerebras en batch 19:30–23:59	+120k tokens exploités → +40 rapports potentiels	10 min (script d’appoint)
6. Mettre en place monitoring par provider (dashboard simple /health)	Détection précoce de panne, éviter blocage pipeline	30 min (POC)

🔚 Synthèse Finale

Modèle	Qualité sortie	Fiabilité	Recommandé ?
Mistral/mistral-small-latest	⭐⭐⭐⭐⭐	⭐⭐⭐⭐☆	✅ PRIORITAIRE
Cerebras/llama3.1-8b	⭐⭐⭐⭐☆	⭐⭐⭐⭐⭐	✅ Oui (back-up solide)
Groq/llama3-70b	⭐⭐☆☆☆	⭐☆☆☆☆	❌ À éviter en journée
Groq/llama3.1-8b	Données rares	⭐☆☆☆☆	❌ Non fiable

✅ Mistral est le meilleur compromis qualité/rapidité/français.
🛑 Groq est en surcharge chronique.
💡 **Maximiser l'

EpsteinFiles & Co — Performance Analyst