Dashboarddoc-crawler → rapport
doc-crawler 2026-04-18 14:12:43

[CRAWL] DataSet_8 OCR batch 228 — EFTA00031688 à EFTA00031726

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T14:12:43.390Z


CRAWL REPORT — 2024-06-13

Batch: DataSet_8 OCR Batch 228 (EFTA00031688 à EFTA00031726) Agent: CRAWLER (Doc Crawler) Modèle: llama-4-scout-17b-16e-instruct (Groq) Statut: OCR_REQUIS pour l'intégralité du batch (texte natif absent ou <50 caractères).


DOCUMENTS TRAITÉS

(Tous les documents nécessitent un OCR manuel ou automatisé en raison de l'absence de texte extractible.)

Fichier Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00031688.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image brute. Nécessite OCR pour extraction.
EFTA00031689.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu non extractible. Probablement une image ou un PDF scanné sans texte natif.
EFTA00031690.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné sans texte. OCR requis pour analyse.
EFTA00031693.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image. Extraction impossible sans OCR.
EFTA00031694.pdf DS8 unknown 1 OCR_REQUIS 0 Texte non disponible. OCR nécessaire.
EFTA00031697.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné. Extraction impossible sans OCR.
EFTA00031698.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image brute. OCR requis.
EFTA00031699.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu non extractible. OCR nécessaire.
EFTA00031701.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné sans texte. Extraction impossible.
EFTA00031702.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image. OCR requis pour analyse.
EFTA00031704.pdf DS8 unknown 1 OCR_REQUIS 0 Texte non disponible. OCR nécessaire.
EFTA00031705.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné. Extraction impossible sans OCR.
EFTA00031706.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image brute. OCR requis.
EFTA00031707.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu non extractible. OCR nécessaire.
EFTA00031708.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné sans texte. Extraction impossible.
EFTA00031710.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image. OCR requis pour analyse.
EFTA00031711.pdf DS8 unknown 1 OCR_REQUIS 0 Texte non disponible. OCR nécessaire.
EFTA00031712.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné. Extraction impossible sans OCR.
EFTA00031714.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image brute. OCR requis.
EFTA00031715.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu non extractible. OCR nécessaire.
EFTA00031716.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné sans texte. Extraction impossible.
EFTA00031717.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image. OCR requis pour analyse.
EFTA00031718.pdf DS8 unknown 1 OCR_REQUIS 0 Texte non disponible. OCR nécessaire.
EFTA00031719.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné. Extraction impossible sans OCR.
EFTA00031720.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier corrompu ou image brute. OCR requis.
EFTA00031721.pdf DS8 unknown 1 OCR_REQUIS 0 Contenu non extractible. OCR nécessaire.
EFTA00031722.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné sans texte. Extraction impossible.
EFTA00031724.pdf DS8 unknown 1 OCR_REQUIS 0 Fichier image. OCR requis pour analyse.
EFTA00031725.pdf DS8 unknown 1 OCR_REQUIS 0 Texte non disponible. OCR nécessaire.
EFTA00031726.pdf DS8 unknown 1 OCR_REQUIS 0 Document scanné. Extraction impossible sans OCR.

COUVERTURE


ERREURS & ACTIONS

Fichier Erreur Action
Tous (30 fichiers) Texte natif absent / OCR_REQUIS OCR manuel ou Tesseract
EFTA00031688.pdf Fichier corrompu Réessayer OCR
EFTA00031693.pdf Contenu non extractible Vérifier manuellement

RECOMMANDATIONS

  1. OCR prioritaire :
  2. Utiliser Tesseract OCR ou un outil similaire (ex: Adobe Acrobat Pro, ABBYY FineReader) pour extraire le texte des 30 fichiers.
  3. Cibler les noms, dates, lieux et montants après extraction.

  4. Vérification des métadonnées :

  5. Les fichiers semblent être des images ou PDF scannés (qualité variable).
  6. Hypothèse : Contenu lié à des listes de contacts, registres financiers, ou documents administratifs.

  7. Signalement critique :

  8. AUCUN contenu critique identifié dans ce batch (attente de l'OCR).

PROCHAIN CYCLE


Fin du rapport. Agent CRAWLERData Pipeline, EpsteinFiles & Co.


EpsteinFiles & Co — Doc Crawler