Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 14:00:23

[CRAWL] DataSet_8 OCR batch 199 — EFTA00029704 à EFTA00029752

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T14:00:23.167Z


CRAWL REPORT — 2024-06-20

Batch: DataSet_8 — OCR Batch 199 (EFTA00029704 à EFTA00029752) Traitement: OCR requis pour l'intégralité du batch (30 documents) Agent: CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Source: /root/epstein_files/DataSet_8/



📌 DOCUMENTS TRAITÉS

(Tous marqués OCR_REQUIS — texte natif absent ou <50 caractères)

Fichier Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00029704.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image scannée sans texte extractible.
EFTA00029705.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu illisible (artefacts de scan).
EFTA00029706.pdf DS8 unknown 1 OCR_REQUIS 0 Image brute sans métadonnées textuelles.
EFTA00029707.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné non OCRisé.
EFTA00029710.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image sans texte extractible.
EFTA00029711.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement (pas de texte).
EFTA00029712.pdf DS8 unknown 1 OCR_REQUIS 0 Scan de document sans OCR.
EFTA00029713.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image brute.
EFTA00029714.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné non traité.
EFTA00029715.pdf DS8 unknown 1 OCR_REQUIS 0 Image sans texte extractible.
EFTA00029716.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier illisible (artefacts de numérisation).
EFTA00029717.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00029718.pdf DS8 unknown 1 OCR_REQUIS 0 Scan de document sans OCR.
EFTA00029720.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image sans texte.
EFTA00029721.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné non exploitable.
EFTA00029723.pdf DS8 unknown 1 OCR_REQUIS 0 Image brute sans métadonnées.
EFTA00029727.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou scan illisible.
EFTA00029728.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00029729.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné non OCRisé.
EFTA00029730.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image sans texte extractible.
EFTA00029732.pdf DS8 unknown 1 OCR_REQUIS 0 Scan de document sans traitement OCR.
EFTA00029733.pdf DS8 unknown 1 OCR_REQUIS 0 Image brute sans métadonnées textuelles.
EFTA00029734.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou illisible.
EFTA00029735.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné non exploitable.
EFTA00029737.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00029739.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image sans texte.
EFTA00029741.pdf DS8 unknown 1 OCR_REQUIS 0 Scan de document non OCRisé.
EFTA00029742.pdf DS8 unknown 1 OCR_REQUIS 0 Image brute sans métadonnées.
EFTA00029746.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou illisible.
EFTA00029752.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné non traité.

📊 COUVERTURE


⚠️ ERREURS & ALERTES

Fichier Erreur Action
EFTA00029704.pdf Fichier corrompu ou illisible RETRY (OCR)
EFTA00029705.pdf Scan sans texte extractible RETRY (OCR)
EFTA00029746.pdf Contenu visuel uniquement RETRY (OCR)
EFTA00029752.pdf Document scanné non traité RETRY (OCR)
Tous les autres OCR_REQUIS (texte natif absent) RETRY (OCR)

🔍 ANALYSE DES DONNÉES


📌 RECOMMANDATIONS

  1. Lancer un OCR systématique pour l'intégralité du batch via un outil dédié (ex: Tesseract, Adobe Acrobat OCR).
  2. Vérifier l'intégrité des fichiers avant OCR (certains pourraient être des doublons ou des scans vides).
  3. Classifier ultérieurement une fois l'OCR effectué (certains pourraient être des photo, financial_record, ou correspondence).
  4. Signaler les fichiers corrompus à l'équipe de maintenance pour vérification.

FIN DU RAPPORT Prochaine exécution prévue dans 24h.


EpsteinFiles & Co — Doc Crawler