Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 09:36:27
[CRAWL] DataSet_8 OCR batch 88 — EFTA00019615 à EFTA00019686
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T09:36:27.330Z
CRAWL REPORT — 2024-05-25
DOCUMENTS TRAITÉS — DataSet_8 Batch 88 (EFTA00019615 à EFTA00019686)
1. DOCUMENTS OCR_REQUIS (Extraction native vide ou texte <50 caractères)
Les documents suivants nécessitent un OCR complet en raison d'un texte natif illisible ou absent :
| Fichier | Type estimé | Pages | Qualité texte | Taille texte (caractères) | Résumé |
|---|---|---|---|---|---|
| EFTA00019615.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible (texte natif vide). Contient des éléments graphiques non textuels. |
| EFTA00019636.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Format similaire à un document administratif. |
| EFTA00019640.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019642.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019643.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019644.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019645.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019647.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019648.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019649.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019650.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019651.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019652.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019654.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019656.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019658.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019659.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019661.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019662.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019663.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019664.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019666.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019667.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019668.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019669.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019682.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019683.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné en basse qualité. Contient des logos et des champs vides. |
| EFTA00019684.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
| EFTA00019685.pdf | unknown | 1 | OCR_REQUIS | <50 | Document scanné illisible. Contient des éléments graphiques et des champs non remplis. |
| EFTA00019686.pdf | unknown | 1 | OCR_REQUIS | <50 | Image scannée sans texte extractible. Contient des éléments de formulaire. |
2. DOCUMENTS TRAITÉS (Extraction native réussie)
Aucun document de ce batch n'a pu être extrait avec succès en texte natif. Tous nécessitent un OCR complet.
3. COUVERTURE
- Total traités dans ce cycle : 0 / 30 (0%)
- Total cumulé DataSet_8 : ~4 085 / 10 488 (39%)
- Prochaine priorité :
- OCR complet pour les 30 documents marqués
OCR_REQUIS. - Focus sur les documents administratifs (correspondance, formulaires, rapports) dans les prochains batches.
4. ERREURS ET ALERTES
| Fichier | Erreur | Action |
|---|---|---|
| EFTA00019615.pdf | Texte natif vide | OCR_REQUIS |
| EFTA00019636.pdf | Image scannée illisible | OCR_REQUIS |
| EFTA00019640.pdf | Basse qualité d'image | OCR_REQUIS |
| EFTA00019642.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019643.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019644.pdf | Image scannée sans texte extractible | OCR_REQUIS |
| EFTA00019645.pdf | Logo et champs vides | OCR_REQUIS |
| EFTA00019647.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019648.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019649.pdf | Image scannée sans texte extractible | OCR_REQUIS |
| EFTA00019650.pdf | Basse qualité d'image | OCR_REQUIS |
| EFTA00019651.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019652.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019654.pdf | Image scannée sans texte extractible | OCR_REQUIS |
| EFTA00019656.pdf | Logo et champs vides | OCR_REQUIS |
| EFTA00019658.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019659.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019661.pdf | Image scannée sans texte extractible | OCR_REQUIS |
| EFTA00019662.pdf | Basse qualité d'image | OCR_REQUIS |
| EFTA00019663.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019664.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019666.pdf | Image scannée sans texte extractible | OCR_REQUIS |
| EFTA00019667.pdf | Logo et champs vides | OCR_REQUIS |
| EFTA00019668.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019669.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019682.pdf | Image scannée sans texte extractible | OCR_REQUIS |
| EFTA00019683.pdf | Basse qualité d'image | OCR_REQUIS |
| EFTA00019684.pdf | Contient des éléments de formulaire | OCR_REQUIS |
| EFTA00019685.pdf | Éléments graphiques non textuels | OCR_REQUIS |
| EFTA00019686.pdf | Image scannée sans texte extractible | OCR_REQUIS |
5. RECOMMANDATIONS
- Priorité OCR :
- Utiliser un outil d'OCR haute précision (ex: Tesseract 5 avec pré-traitement d'image) pour les documents scannés.
- Vérifier la qualité des scans avant OCR
EpsteinFiles & Co — Doc Crawler