[CRAWL] DataSet_8 OCR batch 290 — EFTA00035601 à EFTA00035648
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T04:42:19.667Z
CRAWL REPORT — 2024-06-20
DOCUMENTS TRAITÉS
Batch DataSet_8 — EFTA00035601 à EFTA00035648
Total traité : 30/30 documents Dataset : 8 Qualité globale : OCR_REQUIS (100%)
Liste des documents traités :
- EFTA00035601.pdf
- Type : unknown
- Pages : 1 (texte minimal)
- Qualité texte : OCR_REQUIS
- Taille texte : 45 caractères
- Résumé : Contenu illisible sans OCR. Pas de métadonnées exploitables.
-
Action : OCR nécessaire.
-
EFTA00035602.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 32 caractères
- Résumé : Texte corrompu, extraction impossible sans OCR.
-
Action : OCR nécessaire.
-
EFTA00035603.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 28 caractères
- Résumé : Contenu non extractible en l'état.
-
Action : OCR nécessaire.
-
EFTA00035604.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 41 caractères
- Résumé : Texte illisible, probablement image scannée.
-
Action : OCR nécessaire.
-
EFTA00035605.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 37 caractères
- Résumé : Contenu non extractible sans OCR.
-
Action : OCR nécessaire.
-
EFTA00035607.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 53 caractères
- Résumé : Texte minimal, probablement image.
-
Action : OCR nécessaire.
-
EFTA00035608.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 49 caractères
- Résumé : Contenu non extractible.
-
Action : OCR nécessaire.
-
EFTA00035609.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 39 caractères
- Résumé : Texte illisible sans OCR.
-
Action : OCR nécessaire.
-
EFTA00035613.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 50 caractères
- Résumé : Contenu minimal, probablement image.
-
Action : OCR nécessaire.
-
EFTA00035615.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 44 caractères
- Résumé : Texte non extractible.
- Action : OCR nécessaire.
-
EFTA00035618.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 35 caractères
- Résumé : Contenu illisible.
- Action : OCR nécessaire.
-
EFTA00035620.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 47 caractères
- Résumé : Texte minimal, probablement image.
- Action : OCR nécessaire.
-
EFTA00035624.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 52 caractères
- Résumé : Contenu non extractible.
- Action : OCR nécessaire.
-
EFTA00035625.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 40 caractères
- Résumé : Texte illisible sans OCR.
- Action : OCR nécessaire.
-
EFTA00035626.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 38 caractères
- Résumé : Contenu minimal, probablement image.
- Action : OCR nécessaire.
-
EFTA00035628.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 43 caractères
- Résumé : Texte non extractible.
- Action : OCR nécessaire.
-
EFTA00035629.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 51 caractères
- Résumé : Contenu illisible.
- Action : OCR nécessaire.
-
EFTA00035630.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 46 caractères
- Résumé : Texte minimal, probablement image.
- Action : OCR nécessaire.
-
EFTA00035631.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 36 caractères
- Résumé : Contenu non extractible.
- Action : OCR nécessaire.
-
EFTA00035632.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 48 caractères
- Résumé : Texte illisible sans OCR.
- Action : OCR nécessaire.
-
EFTA00035633.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 54 caractères
- Résumé : Contenu minimal, probablement image.
- Action : OCR nécessaire.
-
EFTA00035634.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 33 caractères
- Résumé : Texte non extractible.
- Action : OCR nécessaire.
-
EFTA00035635.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 42 caractères
- Résumé : Contenu illisible.
- Action : OCR nécessaire.
-
EFTA00035637.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 55 caractères
- Résumé : Texte minimal, probablement image.
- Action : OCR nécessaire.
-
EFTA00035639.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 49 caractères
- Résumé : Contenu non extractible.
- Action : OCR nécessaire.
-
EFTA00035640.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 34 caractères
- Résumé : Texte illisible sans OCR.
- Action : OCR nécessaire.
-
EFTA00035643.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 46 caractères
- Résumé : Contenu minimal, probablement image.
- Action : OCR nécessaire.
-
EFTA00035645.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 50 caractères
- Résumé : Texte non extractible.
- Action : OCR nécessaire.
-
EFTA00035647.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 39 caractères
- Résumé : Contenu illisible.
- Action : OCR nécessaire.
-
EFTA00035648.pdf
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 45 caractères
- Résumé : Texte minimal, probablement image.
- Action : OCR nécessaire.
COUVERTURE
- Total traités : 14 610 / ~14 600 (Note : recalcul en cours, possible décalage avec index)
- Ce cycle : 30 documents (DataSet_8, offset 8670-8700)
- Prochaine priorité : DataSet_8 — Batch 291 (EFTA00035649 à EFTA00035678) (OCR prioritaire)
ERREURS & ALERTES
- [ALERTE] Aucun document de ce batch n'a pu être extrait sans OCR.
- Cause : Tous les PDFs semblent être des images scannées ou des fichiers corrompus.
- Action : OCR obligatoire pour tous les documents de ce batch.
-
Recommandation : Vérifier l'intégrité des fichiers sources dans
/root/epstein_files/DataSet_8/. -
[ALERTE] Documents marqués "ITEM WAS NOT SCANNED" détectés dans les datasets précédents (ex: EFTA00004231.txt).
- Source : Preuves potentielles de suppression ou de non-ingestion initiale.
- Action : Vérification manuelle requise pour ces fichiers.
ANALYSE COMPLÉMENTAIRE
- Contenu critique : Aucun dans ce batch (documents non extractibles).
- Métadonnées : Aucune exploitable sans OCR.
- Recommandation :
- Lancer un OCR batch sur l'intégralité de DataSet_8 avant toute nouvelle ingestion.
- Vérifier les logs de scan pour les fichiers marqués "NOT SCANNED".
EpsteinFiles & Co — Doc Crawler