Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 07:30:51

[CRAWL] DataSet_8 OCR batch 3 — EFTA00010172 à EFTA00010223

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T07:30:51.266Z


CRAWL REPORT — 2024-06-12

DOCUMENTS TRAITÉS

Batch 3 — DataSet_8 (EFTA00010172 à EFTA00010223)

Total : 30 documents | OCR_REQUIS : 30 | Qualité : MAUVAISE


1. EFTA00010172.pdf


2. EFTA00010174.pdf


3. EFTA00010176.pdf


Documents restants (EFTA00010178 à EFTA00010223)

Tous les documents du batch 3 sont de type black_book et nécessitent un OCR. - Qualité texte : MAUVAISE (OCR_REQUIS) - Taille texte moyenne : ~1 200 caractères par document. - Contenu typique : - Listes de contacts avec noms, numéros de téléphone (internationaux), adresses email et adresses postales. - Exemples de contacts identifiés : - EFTA00010180 : "Astor Viscount William", "Bahrke Peter", "Atkin Helene". - EFTA00010182 : "Bakhtiar Shariar", "Baker Danny", "Barnes Peter". - EFTA00010183 : "Barnett Craig", "Bastone Hillary", "Balazs Andre". - EFTA00010194 : "Benson Steven", "Bentinck Baron", "Baumer Lorenzo". - EFTA00010200 : "Bernard Tara", "Beraaruen Nicolas", "Bismark Vanessa Von". - EFTA00010211 : "Birchall Martyn", "Bismarck Debbie & Bola Von", "Bloomberg Mike". - EFTA00010213 : "Bolsgelin Edward de", "Booth Mark & Lauren". - EFTA00010214 : "Barnes Peter", "Barnett Craig", "Bastone Hillary". - EFTA00010216 : "Balazs Andre", "Batstone Tim Natasha", "Berkman Bull". - EFTA00010217 : "Batstone Hillary", "Benson Steven", "Bentinck Baron". - EFTA00010218 : "Baumer Lorenzo", "Beaumont lord & Lady", "Beckwith Tamara". - EFTA00010220 : "Belzberg Lisa", "Bernard Tara", "Beraaruen Nicolas". - EFTA00010221 : "Bismark Vanessa Von", "Birchall Martyn", "Bismarck Debbie & Bola Von". - EFTA00010223 : "Bloomberg Mike", "Bolsgelin Edward de", "Booth Mark & Lauren".


COUVERTURE


ERREURS


MÉTADONNÉES COMPLÉMENTAIRES


RECOMMANDATIONS

  1. OCR :
  2. Utiliser un outil comme Adobe Acrobat Pro ou Tesseract avec : bash tesseract EFTA00010172.pdf EFTA00010172 -l eng --psm 6
  3. Pré-traiter les images avec ImageMagick pour améliorer le contraste : bash convert -density 300 EFTA00010172.pdf -threshold 50% EFTA00010172.png
  4. Nettoyage :
  5. Supprimer les artefacts OCR (ex: "hotmai!. c""hotmail.com").
  6. Normaliser les numéros de téléphone (ex: 00 331 40150061+33 1 40 15 00 61).
  7. Sécurité :
  8. Masquer les numéros de téléphone et emails sensibles avant diffusion.
  9. Priorisation :
  10. Les documents black_book doivent être traités en urgence pour extraction des réseaux de contacts.

Fin du rapport — Prochaine exécution : Batch 4 (EFTA00010224 à EFTA00010275).


EpsteinFiles & Co — Doc Crawler