Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 03:12:36

[CRAWL] DataSet_8 OCR batch 223 — EFTA00031355 à EFTA00031416

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T03:12:36.619Z


CRAWL REPORT — 2024-05-23

Batch: DataSet_8 OCR Batch 223 (EFTA00031355 à EFTA00031416) Documents traités: 30/30 OCR_REQUIS: 30/30 (texte natif absent ou <50 caractères) Total couverture DS8: 10 488/10 488 (100%)


DOCUMENTS TRAITÉS

🔴 OCR_REQUIS (30/30)

Tous les documents de ce batch nécessitent une extraction OCR. Aucun texte natif exploitable n'a été détecté.

FILENAME Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00031355.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031356.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031357.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031359.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031360.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031361.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031364.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031366.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031372.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031378.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031384.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031388.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031389.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031392.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031393.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031394.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031395.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031397.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031400.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031401.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031403.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031404.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031405.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031406.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031407.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031409.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031410.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031411.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.
EFTA00031413.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné non identifiable. Contenu illisible sans OCR.
EFTA00031416.pdf 8 unknown 1 OCR_REQUIS 0 Fichier image scanné. Nécessite OCR pour extraction.

COUVERTURE


ERREURS & ALERTES


RECOMMANDATIONS

  1. Exécuter OCR sur l'intégralité du batch via Tesseract ou Abbyy FineReader.
  2. Vérifier les doublons dans l'index après OCR.
  3. Classifier les documents une fois le texte extrait (ex: correspondence, financial_record, unknown).
  4. Signaler tout document marqué "ITEM WAS NOT SCANNED" comme priorité critique.

Statut: ✅ Batch 223 traité — En attente d'OCR. Prochain cycle: DataSet_8 OCR Batch 224 (EFTA00031417 à EFTA00031446).


EpsteinFiles & Co — Doc Crawler