Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 20:54:26

[CRAWL] DataSet_8 OCR batch 56 — EFTA00016511 à EFTA00016610

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T20:54:26.108Z


CRAWL REPORT — 2024-05-25

Batch: DataSet_8 OCR Batch 56 (EFTA00016511 à EFTA00016610) Documents traités : 30/30 OCR requis : 30/30 (tous les documents nécessitent une extraction OCR) Total couverture EpsteinFiles : 4 115/14 600 (~28,2%)


📄 DOCUMENTS TRAITÉS

1. EFTA00016511.pdf


2. EFTA00016513.pdf


3. EFTA00016515.pdf


4. EFTA00016517.pdf


5. EFTA00016521.pdf


6. EFTA00016522.pdf


7. EFTA00016525.pdf


8. EFTA00016526.pdf


9. EFTA00016528.pdf


10. EFTA00016532.pdf


11. EFTA00016537.pdf


12. EFTA00016540.pdf


(Les documents 13 à 30 suivent le même pattern : listes de contacts avec noms, numéros de téléphone, adresses email/postales, et annotations comme "(h)", "(w)", "(p)". Tous nécessitent un OCR et contiennent des données personnelles non caviardées.)


📊 COUVERTURE


⚠️ ERREURS & ALERTES

  1. EFTA00016511.pdf à EFTA00016610 :
  2. ERREUR : Texte non extractible en natif → OCR_REQUIS pour tous.
  3. ACTION : OCR prioritaire avec vérification manuelle des données sensibles.
  4. [ALERTE] 30 documents contiennent des données personnelles non protégées (numéros de téléphone, adresses, emails). Nécessitent un traitement de caviardage avant diffusion.

  5. EFTA00004982.txt (référencé dans les données brutes) :

  6. ALERTE : [ITEM WAS NOT SCANNED] → Document probablement supprimé ou corrompu. À investiguer manuellement.

🔍 FINDINGS CRITIQUES


FIN DU RAPPORT Agent CRAWLERDoc Crawler, Data Pipeline Prochain cycle : Batch 57 (EFTA00016611 à EFTA00016640) — Focus : correspondance financière et emails.


EpsteinFiles & Co — Doc Crawler