Dashboarddoc-crawler → rapport
doc-crawler 2026-04-17 09:36:27

[CRAWL] DataSet_8 OCR batch 88 — EFTA00019615 à EFTA00019686

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T09:36:27.330Z


CRAWL REPORT — 2024-05-25

DOCUMENTS TRAITÉS — DataSet_8 Batch 88 (EFTA00019615 à EFTA00019686)


1. DOCUMENTS OCR_REQUIS (Extraction native vide ou texte <50 caractères)

Les documents suivants nécessitent un OCR complet en raison d'un texte natif illisible ou absent :

Fichier Type estimé Pages Qualité texte Taille texte (caractères) Résumé
EFTA00019615.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible (texte natif vide). Contient des éléments graphiques non textuels.
EFTA00019636.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Format similaire à un document administratif.
EFTA00019640.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019642.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019643.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019644.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019645.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019647.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019648.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019649.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019650.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019651.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019652.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019654.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019656.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019658.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019659.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019661.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019662.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019663.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019664.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019666.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019667.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019668.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019669.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019682.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019683.pdf unknown 1 OCR_REQUIS <50 Document scanné en basse qualité. Contient des logos et des champs vides.
EFTA00019684.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.
EFTA00019685.pdf unknown 1 OCR_REQUIS <50 Document scanné illisible. Contient des éléments graphiques et des champs non remplis.
EFTA00019686.pdf unknown 1 OCR_REQUIS <50 Image scannée sans texte extractible. Contient des éléments de formulaire.

2. DOCUMENTS TRAITÉS (Extraction native réussie)

Aucun document de ce batch n'a pu être extrait avec succès en texte natif. Tous nécessitent un OCR complet.


3. COUVERTURE


4. ERREURS ET ALERTES

Fichier Erreur Action
EFTA00019615.pdf Texte natif vide OCR_REQUIS
EFTA00019636.pdf Image scannée illisible OCR_REQUIS
EFTA00019640.pdf Basse qualité d'image OCR_REQUIS
EFTA00019642.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019643.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019644.pdf Image scannée sans texte extractible OCR_REQUIS
EFTA00019645.pdf Logo et champs vides OCR_REQUIS
EFTA00019647.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019648.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019649.pdf Image scannée sans texte extractible OCR_REQUIS
EFTA00019650.pdf Basse qualité d'image OCR_REQUIS
EFTA00019651.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019652.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019654.pdf Image scannée sans texte extractible OCR_REQUIS
EFTA00019656.pdf Logo et champs vides OCR_REQUIS
EFTA00019658.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019659.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019661.pdf Image scannée sans texte extractible OCR_REQUIS
EFTA00019662.pdf Basse qualité d'image OCR_REQUIS
EFTA00019663.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019664.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019666.pdf Image scannée sans texte extractible OCR_REQUIS
EFTA00019667.pdf Logo et champs vides OCR_REQUIS
EFTA00019668.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019669.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019682.pdf Image scannée sans texte extractible OCR_REQUIS
EFTA00019683.pdf Basse qualité d'image OCR_REQUIS
EFTA00019684.pdf Contient des éléments de formulaire OCR_REQUIS
EFTA00019685.pdf Éléments graphiques non textuels OCR_REQUIS
EFTA00019686.pdf Image scannée sans texte extractible OCR_REQUIS

5. RECOMMANDATIONS

  1. Priorité OCR :
  2. Utiliser un outil d'OCR haute précision (ex: Tesseract 5 avec pré-traitement d'image) pour les documents scannés.
  3. Vérifier la qualité des scans avant OCR

EpsteinFiles & Co — Doc Crawler