Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 07:00:21
[CRAWL] DataSet_8 OCR batch 13 — EFTA00011441 à EFTA00011527
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T07:00:21.807Z
CRAWL REPORT — 2024-06-19
Batch: DataSet_8 — OCR Batch 13 (EFTA00011441 à EFTA00011527) Documents traités: 30/30 OCR_REQUIS: 30/30 (aucun texte natif exploitable détecté) Prochaine priorité: DataSet_8 — OCR Batch 14 (EFTA00011528 à EFTA00011557)
DOCUMENTS TRAITÉS
🔴 OCR_REQUIS (30/30)
Tous les documents de ce batch sont des images scannées ou des fichiers binaires (JPG, TIF, etc.) sans texte natif exploitable. L'OCR est obligatoire pour extraire le contenu.
| FILENAME | Dataset | Type | Pages | Qualité texte | Taille texte | Résumé |
|---|---|---|---|---|---|---|
| EFTA00011441.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (JPG/TIF) non textuel. Contenu visuel uniquement (pas de métadonnées textuelles). |
| EFTA00011442.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée exploitable sans OCR. |
| EFTA00011444.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (DSCF0001.TIF et suivants). Contient des noms de fichiers et des métadonnées d'archivage, mais pas de texte lisible sans OCR. |
| EFTA00011445.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011452.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (IMG_1940.JPG et suivants). Contient des métadonnées d'image (dates, noms de fichiers), mais pas de texte exploitable sans OCR. |
| EFTA00011475.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
| EFTA00011489.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (LSJ01.JPG et suivants). Contient des noms de fichiers et des métadonnées d'archivage, mais pas de texte lisible sans OCR. |
| EFTA00011494.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011495.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (PB_girl0.TIF et suivants). Contient des métadonnées d'image, mais pas de texte exploitable sans OCR. |
| EFTA00011496.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
| EFTA00011497.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (JE_photog00.TIF et suivants). Contient des métadonnées d'image, mais pas de texte lisible sans OCR. |
| EFTA00011498.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011499.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (DSCF0041.TIF et suivants). Contient des métadonnées d'archivage, mais pas de texte exploitable sans OCR. |
| EFTA00011500.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
| EFTA00011501.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (IMG_4613.JPG et suivants). Contient des métadonnées d'image, mais pas de texte lisible sans OCR. |
| EFTA00011503.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011505.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (DSC03611.JPG et suivants). Contient des métadonnées d'image, mais pas de texte exploitable sans OCR. |
| EFTA00011506.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
| EFTA00011507.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (DSC07207.JPG et suivants). Contient des métadonnées d'archivage, mais pas de texte lisible sans OCR. |
| EFTA00011509.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011510.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (DSC07225.JPG et suivants). Contient des métadonnées d'image, mais pas de texte exploitable sans OCR. |
| EFTA00011512.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
| EFTA00011514.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (LSJ_sunsets/Paris07.JPG). Contient des métadonnées d'image, mais pas de texte lisible sans OCR. |
| EFTA00011515.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011516.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (IMG_0166.JPG et suivants). Contient des métadonnées d'image, mais pas de texte exploitable sans OCR. |
| EFTA00011518.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
| EFTA00011519.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (DSCF0073.JPG et suivants). Contient des métadonnées d'archivage, mais pas de texte lisible sans OCR. |
| EFTA00011520.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Pas de contenu textuel natif. |
| EFTA00011526.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Fichier binaire (IMG_1940.JPG et suivants). Contient des métadonnées d'image, mais pas de texte exploitable sans OCR. |
| EFTA00011527.pdf | DS8 | unknown (scanné) | 1 | OCR_REQUIS | 0 | Image scannée (format non textuel). Aucune donnée textuelle exploitable. |
COUVERTURE
- Total traités (DS8): 10 488/10 488 (100%)
- Ce cycle: 30 documents (OCR_REQUIS)
- Prochaine priorité: DataSet_8 — OCR Batch 14 (EFTA00011528 à EFTA00011557)
ERREURS & ALERTES
- [ALERTE] EFTA00011444.pdf : Contient des références à des fichiers TIF (ex:
DSCF0001.TIF) et des métadonnées d'archivage, mais pas de texte exploitable sans OCR. Action: OCR prioritaire. - [ALERTE] EFTA00011452.pdf : Contient des métadonnées d'image (ex:
IMG_1940.JPG) et des dates, mais pas de texte lisible sans OCR. Action: OCR prioritaire. - [ALERTE] EFTA00011489.pdf : Fichier scanné avec des noms de fichiers (ex:
LSJ01.JPG), mais pas de contenu textuel exploitable sans OCR. Action: OCR prioritaire. - [ALERTE] EFTA00011495.pdf : Contient des métadonnées d'image (ex:
PB_girl0.TIF), mais pas de texte lisible sans OCR. Action: OCR prioritaire. - [ALERTE] EFTA00011501.pdf : Fichier binaire (ex:
IMG_4613.JPG) avec des métadonnées, mais **pas
EpsteinFiles & Co — Doc Crawler