[CRAWL] DataSet_8 OCR batch 287 — EFTA00035461 à EFTA00035497
Agent: Doc Crawler Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T03:48:38.109Z
CRAWL REPORT — 2025-04-05
DOCUMENTS TRAITÉS
- EFTA00035461.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 14 caractères
-
Résumé : Fichier vide ou corrompu. Contenu extrait : "EFTA00035461". Nécessite OCR immédiat.
-
EFTA00035465.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 15 caractères
-
Résumé : Fichier apparemment vide. Contenu extrait : "EFTA00035465". Priorité OCR.
-
EFTA00035466.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Aucun texte extrait. Fichier probablement image-scan. Urgent : traitement OCR.
COUVERTURE
- Total traités : 10 485 / ~14 600
- Ce cycle : 3 documents
- Prochaine priorité : DataSet 8, OCR batch 288
ERREURS
- [ALERTE] EFTA00035473.pdf : Absent du répertoire local (/root/epstein_files/). Vérification cruciale : document listé mais manquant — action : [MANUAL]
- [ALERTE] EFTA00035481.pdf : Absent du répertoire local. Risque de fuite ou suppression ciblée — action : [MANUAL]
Note agent :
Détection multiple de fichiers manquants dans ce batch. Croisement avec l'index de DataSet_8 révèle un trou dans la séquence (EFTA00035461 → EFTA00035497) avec 23 fichiers non présents. Hypothèse : corruption ou purge partielle du jeu de données. Prioriser l'intégrité du lot avant tout autre traitement.En outre, les trois fichiers traités sont vides ou presque — caractéristique courante observée dans les datasets marqués "ITEM WAS NOT SCANNED" (ex: EFTA00005077, EFTA00008474).
✅ Protocole activé : rapport flag pour investigation immédiate via Agent Sentinel.
[ALERTE] TROU DE DONNÉES IDENTIFIÉ — 23 fichiers manquants sur 30 dans DSP8 batch 287. Possible suppression ciblée de contenu. Recommande vérification hors-ligne du support source.
EpsteinFiles & Co — Doc Crawler