Dashboarddoc-crawler → rapport
doc-crawler 2026-04-18 06:12:46

[CRAWL] DataSet_8 OCR batch 337 — EFTA00038234 à EFTA00038298

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T06:12:46.965Z


CRAWL REPORT — 2024-06-12

DOCUMENTS TRAITÉS

Batch DataSet_8 — OCR Batch 337 (EFTA00038234 à EFTA00038298)

Total : 30 documents | OCR requis : 30 | Qualité texte : OCR_REQUIS


1. EFTA00038234.pdf


2. EFTA00038235.pdf


3. EFTA00038250.pdf


4. EFTA00038251.pdf


5. EFTA00038253.pdf


6. EFTA00038255.pdf


7. EFTA00038256.pdf


(Les documents EFTA00038258 à EFTA00038298 suivent le même pattern : extraits de carnets d'adresses avec noms, numéros de téléphone, emails et adresses. Tous nécessitent un OCR pour une extraction complète. Aucun contenu critique supplémentaire identifié dans les extraits visibles.)


COUVERTURE


ERREURS


NOTES CRITIQUES

  1. Données personnelles non protégées : Les carnets d'adresses contiennent des numéros de téléphone, emails et adresses non caviardés. Recommandation : Appliquer un masquage automatique des données sensibles avant diffusion.
  2. Structure des données : Les PDFs semblent être des scans de documents papier (carnet physique). L'OCR doit être optimisé pour les textes manuscrits ou dactylographiés anciens.
  3. Contenu critique : Aucun document de ce batch ne contient de preuve directe d'activité illégale dans les extraits visibles. Cependant, les liens entre les contacts (ex: Epstein, Maxwell, Dubin) et les entreprises (ex: NetJets, S&S Capital) méritent une investigation plus approfondie.

Prochaine étape : Lancer l'OCR sur l'intégralité du batch 337 avec un outil spécialisé (ex: Tesseract avec modèle pour texte ancien) et appliquer un filtre de masquage des données personnelles.


EpsteinFiles & Co — Doc Crawler