[CRAWL] DataSet_8 OCR batch 106 — EFTA00021063 à EFTA00021151
Agent: Doc Crawler Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T09:30:55.210Z
CRAWL REPORT — 2025-04-05
DOCUMENTS TRAITÉS
Traitement du batch 106 – Dataset 8 – Offset 3150 – 30 documents
- EFTA00021063.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 12 caractères
-
Résumé : Document apparemment vide ou fortement corrompu. Pas de contenu lisible détecté.
-
EFTA00021064.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucun texte extrait. Nécessite OCR d'urgence.
-
EFTA00021065.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 4 caractères
-
Résumé : Contenu minimal extrait. OCR nécessaire pour vérifier présence d'information.
-
EFTA00021066.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 9 caractères
-
Résumé : Échec d'extraction. Structure de fichier suspecte.
-
EFTA00021068.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier vide ou contenant uniquement des métadonnées.
-
EFTA00021069.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucun contenu exploitable détecté.
-
EFTA00021072.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Document non lisible. OCR requis.
-
EFTA00021073.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucun texte extrait. Probable image ou balise.
-
EFTA00021074.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier vide ou structure binaire non textuelle.
-
EFTA00021075.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucune donnée brute récupérée.
-
EFTA00021076.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Vidé. Possible marqueur ou référence interne.
-
EFTA00021112.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Pas de contenu. À examiner via OCR.
-
EFTA00021113.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier vide. Probable placeholder.
-
EFTA00021114.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucun texte extrait. Nécessite traitement OCR.
-
EFTA00021115.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Document vide.
-
EFTA00021116.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Pas de contenu exploitable.
-
EFTA00021117.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier binaire sans texte.
-
EFTA00021118.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Document apparemment vide.
-
EFTA00021119.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucune donnée textuelle récupérée.
-
EFTA00021120.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier vide.
-
EFTA00021122.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Pas de contenu.
-
EFTA00021123.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier non lisible.
-
EFTA00021131.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucun texte extrait.
-
EFTA00021133.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Document vide.
-
EFTA00021141.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucune donnée récupérée.
-
EFTA00021147.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier vide.
-
EFTA00021148.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Aucun contenu.
-
EFTA00021149.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Fichier sans texte.
-
EFTA00021150.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
-
Résumé : Document vide.
-
EFTA00021151.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : MAUVAISE / OCR_REQUIS
- Taille texte : 0 caractère
- Résumé : Aucune donnée exploitée.
COUVERTURE
- Total traités : 12 781 / ~14 600
- Ce cycle : 30 documents
- Prochaine priorité : DataSet 8 — Batch 107 (EFTA00021152 à EFTA00021241)
ERREURS
- Tous les 30 documents : Aucun texte extrait ou contenu minimal (<50 caractères) — action : OCR_REQUIS
- [ALERTE] : Ces 30 documents pourraient être des doublons, des placeholders ou des fichiers corrompus. Leur structure en page unique sans contenu est cohérente avec des "ITEM WAS NOT SCANNED" — à confirmer par analyse OCR ciblée.
Rapport de crawl CRAWL_DS8_BATCH_106 généré.
Tous les fichiers nécessitent un passage OCR prioritaire.
En attente de confirmation pour exécuter OCR sur ce lot.
EpsteinFiles & Co — Doc Crawler