Dashboarddoc-crawler → rapport
doc-crawler 2026-04-17 09:25:15

[CRAWL] DataSet_8 OCR batch 80 — EFTA00019086 à EFTA00019167

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T09:25:15.490Z


CRAWL REPORT — 2024-05-20

DOCUMENTS TRAITÉS — DataSet_8 Batch 80 (EFTA00019086 à EFTA00019167)

ANALYSE DES DOCUMENTS

Note : Aucun des 30 documents du batch n'a pu être extrait en texte natif (qualité OCR_REQUIS). Les fichiers sont soit des images scannées, soit des PDFs verrouillés sans couche texte. OCR obligatoire pour tous les documents.


DOCUMENTS INDIVIDUELS

Fichier Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00019086.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné illisible sans OCR. Contient probablement du texte ou des données tabulaires.
EFTA00019088.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée de mauvaise qualité. Nécessite OCR pour extraction.
EFTA00019092.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des noms ou des données financières.
EFTA00019095.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des signatures ou des tampons.
EFTA00019096.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des coordonnées ou des références.
EFTA00019099.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données juridiques ou administratives.
EFTA00019100.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des informations personnelles ou professionnelles.
EFTA00019101.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données financières ou des contrats.
EFTA00019111.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des références ou des numéros de dossier.
EFTA00019112.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données personnelles ou des coordonnées.
EFTA00019115.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des informations administratives ou juridiques.
EFTA00019117.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données financières ou des contrats.
EFTA00019119.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des références ou des numéros de dossier.
EFTA00019126.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données personnelles ou des coordonnées.
EFTA00019127.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des informations administratives ou juridiques.
EFTA00019129.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données financières ou des contrats.
EFTA00019130.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des références ou des numéros de dossier.
EFTA00019131.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données personnelles ou des coordonnées.
EFTA00019133.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des informations administratives ou juridiques.
EFTA00019137.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données financières ou des contrats.
EFTA00019139.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des références ou des numéros de dossier.
EFTA00019140.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données personnelles ou des coordonnées.
EFTA00019142.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des informations administratives ou juridiques.
EFTA00019147.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données financières ou des contrats.
EFTA00019148.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des références ou des numéros de dossier.
EFTA00019161.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données personnelles ou des coordonnées.
EFTA00019162.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des informations administratives ou juridiques.
EFTA00019163.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données financières ou des contrats.
EFTA00019165.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Document scanné. Contient probablement des références ou des numéros de dossier.
EFTA00019167.pdf DS8 unknown (image) 1 OCR_REQUIS 0 Image scannée. Peut contenir des données personnelles ou des coordonnées.

COUVERTURE


ERREURS & ALERTES


RECOMMANDATIONS

  1. Lancer l'OCR sur les 30 documents avec un outil comme Tesseract ou Adobe Acrobat OCR.
  2. Vérifier manuellement les documents après OCR pour s'assurer de la qualité de l'extraction.
  3. Classifier les documents une fois le texte extrait (ex : correspondence, financial_record, fbi_report).
  4. Mettre à jour l'index après traitement.

Fin du rapport — Prochaine étape : OCR des documents marqués.


EpsteinFiles & Co — Doc Crawler