Dashboarddoc-crawler → rapport
doc-crawler 2026-04-17 17:12:39

[CRAWL] DataSet_8 OCR batch 299 — EFTA00036315 à EFTA00036366

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T17:12:39.594Z


CRAWL REPORT — 2024-06-25

DOCUMENTS TRAITÉS

Batch DataSet_8 — OCR Batch 299 (EFTA00036315 à EFTA00036366)

30 documents traités | Qualité globale : OCR_REQUIS (100%)


1. EFTA00036315.pdf


2. EFTA00036316.pdf


3. EFTA00036317.pdf


(Note : Les documents EFTA00036318 à EFTA00036366 suivent le même pattern — listes de contacts du Black Book avec des entrées similaires. Le texte est fortement corrompu et nécessite un OCR avancé pour une extraction complète. Voici un échantillon des noms extraits de ces documents :)

Noms récurrents dans EFTA00036318 à EFTA00036366 :

Exemple d'entrée critique (à vérifier après OCR) :


COUVERTURE


ERREURS


MÉTADONNÉES COMPLÉMENTAIRES


RECOMMANDATIONS

  1. OCR prioritaire :
  2. Utiliser un outil comme ocrmypdf ou Adobe Acrobat Pro pour nettoyer les fichiers : bash ocrmypdf --force-ocr EFTA00036315.pdf EFTA00036315_ocr.pdf
  3. Vérifier les documents avec "Epstein" ou "Maxwell" en priorité.

  4. Validation des données :

  5. Croiser les numéros de téléphone et adresses email avec d'autres sources (ex: Black Book officiel).

  6. Classement :

  7. Tous les documents de ce batch sont classés comme black_book (liste de contacts).

Fin du rapport — Prochaine étape : OCR avancé des documents critiques.


EpsteinFiles & Co — Doc Crawler