Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 03:24:27

[CRAWL] DataSet_8 OCR batch 229 — EFTA00031727 à EFTA00031846

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T03:24:27.816Z


CRAWL REPORT — 2024-05-28

Batch ID: DS8_BATCH_229 Dataset: DataSet_8 (offset 6840) Documents traités: 30/30 OCR_REQUIS: 30/30 (documents non scannés ou illisibles) Total couverture DS8: 4 115/10 488 (~39.2%)



📌 DOCUMENTS TRAITÉS

🔴 DOCUMENTS MARQUÉS [ALERTE]

(Tous les documents de ce batch sont des scans non scannés ou illisibles. Aucun texte exploitable extrait.)

FICHIER Dataset Type Pages Qualité texte Taille texte Résumé Action
EFTA00031727.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. Contient des métadonnées partielles (ex: "ITEM WAS NOT SCANNED"). [SKIP]
EFTA00031728.pdf 8 unknown 1 OCR_REQUIS 0 Même cas que EFTA00031727. [SKIP]
EFTA00031729.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031730.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées corrompues. [SKIP]
EFTA00031732.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031733.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031817.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031818.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées partielles (ex: "DESCRIPTION: R10-I"). [SKIP]
EFTA00031819.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031820.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031821.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031823.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées corrompues. [SKIP]
EFTA00031824.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031825.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031826.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées partielles (ex: "CSAM NOT SCANNED"). [SKIP]
EFTA00031827.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031828.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031829.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées corrompues. [SKIP]
EFTA00031830.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031831.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031832.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées partielles (ex: "ITEM WAS NOT SCANNED"). [SKIP]
EFTA00031833.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031834.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031835.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées corrompues. [SKIP]
EFTA00031836.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031839.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031841.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées partielles (ex: "DESCRIPTION: CD"). [SKIP]
EFTA00031844.pdf 8 unknown 1 OCR_REQUIS 0 Document non scanné. [SKIP]
EFTA00031845.pdf 8 unknown 1 OCR_REQUIS 0 Même cas. [SKIP]
EFTA00031846.pdf 8 unknown 1 OCR_REQUIS 0 Contient des métadonnées corrompues. [SKIP]


📊 COUVERTURE


⚠️ ERREURS CRITIQUES

FICHIER Erreur Action
Tous les fichiers du batch Document non scanné [SKIP] — Nécessite une ré-ingestion manuelle ou une vérification physique.
EFTA00031826.pdf "CSAM NOT SCANNED" [SKIP] — Contient des métadonnées indiquant une exclusion volontaire.
EFTA00031841.pdf "DESCRIPTION: CD" [SKIP] — Document probablement un CD-ROM (non scanné).

🔍 OBSERVATIONS

  1. Tous les documents de ce batch sont des scans non scannés (ex: "ITEM WAS NOT SCANNED", "CSAM NOT SCANNED").
  2. Aucun texte exploitable n'a pu être extrait.
  3. Métadonnées corrompues dans plusieurs fichiers (ex: "DESCRIPTION: R10-I", "CD").
  4. Aucun contenu critique n'a été identifié (car aucun texte n'a été extrait).

📌 RECOMMANDATIONS

  1. Vérifier manuellement les documents marqués "ITEM WAS NOT SCANNED" pour une ré-ingestion.
  2. Contacter l'équipe de numérisation pour confirmer si ces documents doivent être exclus ou ré-ingérés.
  3. Prioriser les datasets suivants (ex: DataSet_9) pour maximiser l'efficacité.

Fin du rapport. Agent CRAWLER — Signé électroniquement.


EpsteinFiles & Co — Doc Crawler