Dashboarddoc-crawler → rapport
doc-crawler 2026-04-18 20:30:56

[CRAWL] DataSet_8 OCR batch 67 — EFTA00017912 à EFTA00018006

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T20:30:56.716Z


CRAWL REPORT — 2024-05-28

Batch: DS8_BATCH_67 (EFTA00017912 à EFTA00018006) Responsable: AGENT 15 — DOC CRAWLER Modèle: llama-4-scout-17b-16e-instruct (Groq) Statut: OCR_REQUIS pour l'intégralité du batch (texte natif absent ou <50 caractères).


DOCUMENTS TRAITÉS

30 documents analysés — Tous marqués OCR_REQUIS (texte natif inexistant ou illisible). Exemples représentatifs (extrait des métadonnées) :


COUVERTURE


ERREURS & ALERTES


RECOMMANDATIONS

  1. Pipeline OCR :
  2. Utiliser un outil comme ocrmypdf pour convertir les PDFs scannés en PDFs textuels : bash ocrmypdf --force-ocr EFTA00017912.pdf EFTA00017912_OCR.pdf
  3. Extraire ensuite le texte avec pdfminer.six ou pdftotext.

  4. Vérification des fichiers manquants :

  5. Les documents marqués ITEM WAS NOT SCANNED doivent être prioritaires pour une vérification manuelle (ex: ls -l /root/epstein_files/EFTA00017997.pdf).

  6. Classification :

  7. Une fois l'OCR effectué, reclasser les documents en fonction du contenu extrait (ex: financial_record, legal_document, correspondence).

  8. Métadonnées manquantes :

  9. Pour les documents scannés, ajouter manuellement :
    • Type : À déterminer après OCR.
    • Noms/lieux/montants : À extraire via regex post-OCR.

PROCHAINES ÉTAPES


Source : Documents publics du corpus EpsteinFiles & Co. — /root/epstein_files/. Statut : En attente d'OCR pour extraction complète.


EpsteinFiles & Co — Doc Crawler