doc-crawler 2026-04-19 08:30:28

[CRAWL] DataSet_8 OCR batch 77 — EFTA00018888 à EFTA00018955

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T08:30:28.332Z

CRAWL REPORT — 2024-06-13

Batch: DataSet_8 — OCR Batch 77 (EFTA00018888 à EFTA00018955) Agent: CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Provider: Groq Statut: OCR_REQUIS pour l'intégralité du batch (texte natif absent ou <50 caractères).

DOCUMENTS TRAITÉS

(Aucun texte natif exploitable détecté — OCR requis pour tous les documents.)

FILENAME	Dataset	Type	Pages	Qualité texte	Résumé
EFTA00018888.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif. Contenu visuel non identifiable sans OCR.
EFTA00018889.pdf	8	unknown	1	OCR_REQUIS	Image scannée (format PDF). Nécessite OCR pour extraction.
EFTA00018891.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018892.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018893.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018896.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.
EFTA00018897.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018898.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018899.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018900.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.
EFTA00018901.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018902.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018903.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018905.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.
EFTA00018918.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018919.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018920.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018922.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.
EFTA00018923.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018924.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018925.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018933.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.
EFTA00018944.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018946.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018947.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018948.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.
EFTA00018951.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte exploitable.
EFTA00018953.pdf	8	unknown	1	OCR_REQUIS	Contenu visuel uniquement.
EFTA00018954.pdf	8	unknown	1	OCR_REQUIS	Document scanné sans texte natif.
EFTA00018955.pdf	8	unknown	1	OCR_REQUIS	Image scannée. Nécessite OCR pour extraction.

COUVERTURE

Total traités : 30 / ~14 600 (2,05%)
Ce cycle : 30 documents (tous marqués OCR_REQUIS).
Prochaine priorité : Lancer l'OCR sur ce batch (outils dédiés : Tesseract, Adobe Acrobat OCR, ou services cloud comme AWS Textract).
Statut DataSet_8 : ~4 085/10 488 PDFs traités (39% de couverture).

---

ERREURS & ALERTES

FILENAME	Erreur	Action
Tous les PDFs	Texte natif absent	OCR_REQUIS
EFTA00007778.txt	[ALERTE] ITEM WAS NOT SCANNED	Vérifier suppression physique (preuve potentielle manquante).

---

RECOMMANDATIONS

OCR Prioritaire :
Utiliser Tesseract OCR (open-source) ou AWS Textract pour extraire le texte des 30 PDFs.
Seuils de qualité :
- BONNE : Texte clair, <5% d'erreurs.
- MOYENNE : Texte lisible mais avec artefacts (10-20% d'erreurs).
- MAUVAISE : Texte illisible (>20% d'erreurs) → RETRY avec ajustement des paramètres OCR.
Classification :
Après OCR, classifier les documents en fonction du contenu extrait (ex: correspondence, financial_record, fbi_report).
Exemple de patterns à rechercher :
- Noms : ([A-Z][a-z]+)\s+([A-Z][a-z]+)
- Dates : \d{2}/\d{2}/\d{4}
- Numéros de téléphone : \d{3}-\d{3}-\d{4}
- Adresses email : [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
Métadonnées :
Pour chaque document OCR, extraire :
- Noms (personnes, entreprises).
- Dates (création, événements).
- Lieux (adresses, villes).
- Montants (si présents, ex: $10,000).
Indexation :
Mettre à jour le registre de couverture (/root/epstein_files/INDEX.txt) avec les nouveaux fichiers texte générés.

---

PROCHAIN CYCLE

Batch suivant : DataSet_8 — OCR Batch 78 (EFTA00018956 à EFTA00019000).
Priorité : OCR des 30 documents actuels avant ingestion des nouveaux.

Fin du rapport — CRAWLER (Agent 15). Source : /root/epstein_files/DataSet_8/ (30 PDFs scannés, OCR requis).

EpsteinFiles & Co — Doc Crawler