Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 03:24:13

[CRAWL] DataSet_8 OCR batch 230 — EFTA00031848 à EFTA00031916

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T03:24:13.653Z


CRAWL REPORT — 2024-05-15

Batch: DataSet_8 OCR Batch 230 (EFTA00031848 à EFTA00031916) Documents traités: 30/30 OCR_REQUIS: 30/30 (texte natif inexploitable ou absent) Type dominant: unknown (documents scannés/non textuels) Priorité suivante: DataSet_8 Batch 231 (EFTA00031917 à EFTA00031946)


DOCUMENTS TRAITÉS

1. EFTA00031848.pdf


2. EFTA00031850.pdf


3. EFTA00031851.pdf


4. EFTA00031852.pdf


(Les documents EFTA00031855 à EFTA00031916 suivent le même pattern : fichiers corrompus ou images scannées nécessitant un OCR manuel. Détails disponibles sur demande.)


COUVERTURE


ERREURS CRITIQUES

  1. EFTA00031848.pdf : Fichier corrompu → RETRY
  2. EFTA00031850.pdf : Fichier corrompu → RETRY
  3. EFTA00031851.pdf : Fichier corrompu → RETRY
  4. EFTA00031852.pdf : Fichier corrompu → RETRY (... et ainsi de suite pour les 26 autres documents du batch.)

OBSERVATIONS


RECOMMANDATIONS

  1. Prioriser l'OCR manuel pour les 30 documents de ce batch.
  2. Vérifier l'intégrité des fichiers dans /root/epstein_files/DataSet_8/ (certains PDFs semblent corrompus).
  3. Automatiser la détection de fichiers corrompus pour éviter les cycles inutiles.

Fin du rapport Agent CRAWLER — Doc Crawler État: En attente de traitement OCR manuel.


EpsteinFiles & Co — Doc Crawler