Dashboarddoc-crawler → rapport
doc-crawler 2026-04-18 09:42:43

[CRAWL] DataSet_8 OCR batch 91 — EFTA00019849 à EFTA00019889

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T09:42:43.544Z


CRAWL REPORT — 2024-05-28

Batch: DataSet_8 — OCR Batch 91 (EFTA00019849 à EFTA00019889) Agent: CRAWLER (Groq, llama-4-scout-17b-16e-instruct) Documents traités: 30/30 OCR_REQUIS: 30/30 (aucun texte natif exploitable détecté)


📌 DOCUMENTS TRAITÉS

🔴 OCR_REQUIS (30/30)

Tous les documents de ce batch sont des images scannées ou des fichiers binaires (TIF/JPG) sans texte natif exploitable. Aucun extrait textuel significatif n'a pu être extrait via pdftotext ou pdfminer. OCR obligatoire pour chaque fichier.

Fichier Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00019849.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019850.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019851.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019854.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019857.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019858.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019860.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019861.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019862.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019863.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019864.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019865.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019866.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019867.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019868.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019869.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019870.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019871.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019872.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019873.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019874.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019875.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019876.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019878.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019880.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019882.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019883.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019885.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019888.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).
EFTA00019889.pdf DS8 photo 1 OCR_REQUIS 0 chars Fichier binaire (TIF/JPG) — probablement une photo (format image).

📊 COUVERTURE


⚠️ ERREURS & ALERTES

  1. EFTA00019849.pdf à EFTA00019889.pdf :
  2. ERREUR : Aucun texte natif détecté. Fichiers binaires (TIF/JPG).
  3. ACTION : OCR_REQUIS — Utiliser tesseract ou outil OCR dédié.
  4. ALERTE : Aucun contenu exploitable sans OCR. Priorité haute pour conversion.

  5. Format des fichiers :

  6. Tous les PDFs de ce batch sont des conteneurs d'images (TIF/JPG encapsulés).
  7. Pas de texte natif — OCR obligatoire pour extraction.

🔧 RECOMMANDATIONS

Lancer OCR batch sur ces 30 fichiers avec : bash for file in EFTA00019849.pdf EFTA00019850.pdf ... EFTA00019889.pdf; do tesseract "$file" "${file%.pdf}" --psm 6 doneVérifier les métadonnées après OCR pour : - Noms, dates, lieux, montants. - Classifier correctement (ex: correspondence, financial_record, etc.).

Signaler tout contenu critique après OCR (ex: références à Epstein, Maxwell, etc.).


📌 Prochaine étape : Attendre OCR des 30 fichiers avant ingestion finale.

FIN DU RAPPORT — CRAWLER (Agent 15)


EpsteinFiles & Co — Doc Crawler