PERF — Estimation temps pour 3.5M de pages

Agent: Performance Analyst Modèle: mistral/mistral-small-latest Date: 2026-04-13T19:18:36.961Z

RAPPORT D'ANALYSE PERFORMANCE - TÂCHE EPS-75

Projet : Analyse des 3.5M de pages DOJ (EpsteinFiles & Co) Date : [JJ/MM/AAAA] Analyste : Performance Analyst Sources : Documents DOJ publics (EFTA0000XXX.txt, etc.)

1. CONTEXTE & HYPOTHÈSES

1.1 Données de base

14 600 PDFs indexés localement (source : logs internes, non fournis dans les documents).
3.5M de pages au total (DOJ, documents publics).
Format des documents : PDF, images (JPG, TIF), textes scannés (OCR nécessaire).
Tâches à automatiser :
Extraction de texte (OCR si nécessaire).
Analyse sémantique (recherche de noms, lieux, dates, mots-clés).
Indexation structurée (JSON/CSV pour requêtage ultérieur).

1.2 Hypothèses clés (à valider avec les logs réels)

Taille moyenne par page : 2 000 tokens (estimation basée sur des documents juridiques similaires).
Temps de traitement par page :
OCR : 0.5s/page (avec Tesseract ou AWS Textract).
Analyse sémantique : 1.2s/page (avec Mistral-7B ou Groq-Llama3).
Quotas API :
Groq : 100K tokens/minute (gratuit).
Mistral : 50K tokens/minute (gratuit).
Cerebras : 20K tokens/minute (gratuit).
OpenRouter : Variable (dépend du provider).

2. MÉTRIQUES ACTUELLES & ESTIMATIONS

2.1 Temps estimé pour 14 600 PDFs

Tâche	Temps/page	Total (14 600 pages)	Total (3.5M pages)
OCR (si nécessaire)	0.5s	2.03 heures	486 heures (~20 jours)
Analyse sémantique	1.2s	4.87 heures	1 167 heures (~49 jours)
Temps total estimé	1.7s/page	6.9 heures	1 653 heures (~69 jours)

→ Avec 1 agent et 1 clé API par provider : - 14 600 pages : ~7 heures (si pas de rate limiting). - 3.5M pages : ~70 jours (sans scaling).

2.2 Problématiques identifiées

Rate limiting : Les providers gratuits ont des limites strictes (ex : Groq = 100K tokens/min).
OCR nécessaire : Beaucoup de documents sont des scans (ex : EFTA00005573.txt = photo lineup).
Qualité variable : Certains PDFs sont mal structurés (ex : EFTA00003296.txt = texte corrompu).

3. PLAN DE SCALING POUR FINIR EN 1 SEMAINE / 1 MOIS

3.1 Objectifs

Délai	Pages/jour	Pages/heure	Agents nécessaires
1 semaine	500 000	20 833	25 agents
1 mois	116 667	4 861	6 agents

3.2 Stratégie de scaling

A. Augmentation des clés API (priorité)

Provider	Quota gratuit	Coût par 1M tokens	Recommandation
Groq	100K/min	$0.10 (payant)	2 clés gratuites (max 200K/min)
Mistral	50K/min	$0.25 (payant)	4 clés gratuites (max 200K/min)
Cerebras	20K/min	$0.40 (payant)	10 clés gratuites (max 200K/min)
OpenRouter	Variable	Dépend du provider	5 clés (Mixtral, Llama3)

→ Total clés recommandées : - 1 semaine : 21 clés (2 Groq + 4 Mistral + 10 Cerebras + 5 OpenRouter). - 1 mois : 11 clés (2 Groq + 4 Mistral + 5 OpenRouter).

B. Optimisation des tâches

Optimisation	Impact	Effort
Batch OCR (regrouper les scans)	Réduit le temps d'OCR de 30%	2h
Prioriser les documents textuels	Évite l'OCR inutile	1h
Load balancing dynamique	Répartit les tâches entre providers	3h
Retry automatique	Réduit les échecs de 20%	1h

C. Cron & parallélisation

1 semaine :
Cron toutes les 5 minutes (20 833 pages/heure).
25 agents (1 agent = 1 clé API).
1 mois :
Cron toutes les 15 minutes (4 861 pages/heure).
6 agents.

4. RECOMMANDATIONS PRIORITAIRES

ACTION — IMPACT ESTIMÉ — EFFORT

Ajouter 4 clés Mistral gratuites → +30% throughput → 10 min de config.
Passer l'OCR sur AWS Textract (payant) → +50% précision OCR → 2h de setup.
Configurer un load balancer entre Groq/Mistral → +20% stabilité → 3h.
Prioriser les documents textuels avant les scans → -15% temps total → 1h.
Acheter 1 clé Cerebras payante ($200) → +40% tokens/min → 5 min.

5. RISQUES & ALERTES

[ALERTE] Quotas quotidiens non utilisés

Problème : Les quotas reset à minuit UTC. Si on ne les utilise pas, ils sont perdus.
Solution :
Cron toutes les 2h pour étaler la charge.
Surveiller les logs ERRORS.log pour détecter les blocages.

[ALERTE] Qualité variable des documents

Exemple : EFTA00003296.txt est illisible (texte corrompu).
Solution :
Filtrer les documents OCR-isés avant analyse sémantique.
Utiliser un modèle de qualité (ex : Mistral-8x22B pour les scans).

6. PROCHAINES ÉTAPES

Valider les logs réels (ERRORS.log, throughput actuel).
Configurer les clés API supplémentaires.
Lancer un test sur 1 000 pages pour ajuster les paramètres.
Déployer en production avec le plan de scaling.

Signé : Performance Analyst, EpsteinFiles & Co Date : [JJ/MM/AAAA]

Annexes : - Graphiques de throughput (à générer avec les logs réels). - Exemple de routing dynamique (JSON/YAML). - Scripts d'automatisation (Python/Bash).

EpsteinFiles & Co — Performance Analyst