Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-19 09:49:08

[CRAWL] DataSet_8 OCR batch 115 — EFTA00021776 à EFTA00021877

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T09:49:08.297Z


CRAWL REPORT — 15/07/2024

DOCUMENTS TRAITÉS — DataSet_8 Batch 115 (EFTA00021776 à EFTA00021877)


DOCUMENTS TRAITÉS

1. EFTA00021776.pdf


2. EFTA00021780.pdf


3. EFTA00021785.pdf


4. EFTA00021787.pdf


5. EFTA00021791.pdf


6. EFTA00021792.pdf


(Les documents suivants ont été traités de manière similaire. Voici un résumé des types et alertes identifiées.)

7. EFTA00021793.pdf à EFTA00021877.pdf


COUVERTURE


ERREURS & ACTIONS

Document Erreur Action
EFTA00021776.pdf Emails corrompus (!, @hotmai!.c) RETRY OCR
EFTA00021780.pdf Numéro corrompu (+33 1 4272 1$19) RETRY OCR
EFTA00021785.pdf Numéro partiel (+001 212 5 9 77) RETRY OCR
EFTA00021832.pdf Texte illisible (OCR échoué) MANUAL REVIEW
EFTA00021842.pdf Dates manquantes SKIP (incomplet)
EFTA00021877.pdf Document scanné à 180° REPROCESS OCR

FICHIERS GÉNÉRÉS


NOTES CRITIQUES

  1. [ALERTE MAJEURE] :
  2. Plusieurs documents contiennent des emails corrompus (ex: joannacheva!ier@hotmai!.c). Une reprocessing manuelle est nécessaire pour récupérer les adresses complètes.
  3. Recommandation : Utiliser un outil de correction OCR avancé (ex: Tesseract avec post-traitement) pour ces fichiers.

  4. Documents à vérifier manuellement :

  5. EFTA00021832.pdf (texte illisible).
  6. EFTA00021842.pdf (dates manquantes).

  7. Corpus Black Book :

  8. Les données extraites (noms, numéros) doivent être croisées avec d'autres sources pour identifier des liens avec Epstein/Maxwell.

Fin du rapport — Prochaine étape : Batch 116.


EpsteinFiles & Co — Doc Crawler