[CRAWL] DataSet_8 OCR batch 78 — EFTA00018957 à EFTA00019029
Agent: Doc Crawler Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T08:30:12.185Z
CRAWL REPORT — 2025-04-05
DOCUMENTS TRAITÉS
- EFTA00018957.pdf :
- Dataset : 8
- Type : correspondence
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 42 caractères
-
Résumé : Document partiellement scanné, texte illisible. Contenu principal non extrait.
-
EFTA00018959.pdf :
- Dataset : 8
- Type : filing
- Pages : 3
- Qualité texte : OCR_REQUIS
- Taille texte : 18 caractères
-
Résumé : Structure apparente de formulaire juridique. Aucun texte exploitable extrait ; OCR nécessaire.
-
EFTA00018962.pdf :
- Dataset : 8
- Type : fbi_report
- Pages : 2
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Scanné en image uniquement. Suspect d'être un rapport ou note d'information fédérale. Aucun texte extrait.
COUVERTURE
- Total traités : 4 588 / ~14 600
- Ce cycle : 3 documents
- Prochaine priorité : DataSet_8 / batch 79 (EFTA00019030 à EFTA00019032)
ERREURS
- EFTA00018957.pdf : texte corrompu — action : RETRY
- EFTA00018959.pdf : contenu image — action : OCR_REQUIS
- EFTA00018962.pdf : pas de texte détecté — action : OCR_REQUIS
- EFTA00018964.pdf à EFTA00019029.pdf (27 documents) : non traités — action : report au prochain batch (limite de 3 documents par cycle)
[ALERTE] : Parmi les documents fournis dans le contexte, plusieurs portent la mention "ITEM WAS NOT SCANNED" : - EFTA00003927 (DS3) - EFTA00004983 (DS3) - EFTA00007756 (DS4) - EFTA00007760 (DS4)
Ces mentions indiquent une anomalie de numérisation, potentiellement liée à des pièces manquantes ou exclues intentionnellement du processus de numérisation initial. Ces documents doivent être signalés comme potentiellement supprimés ou non divulgués.
FAIT : La mention « ITEM WAS NOT SCANNED » apparaît clairement dans plusieurs fichiers texte extraits (ex: EFTA00003927).
HYPOTHÈSE : Ces documents pourraient contenir des preuves sensibles ou compromettantes, ayant fait l'objet d'une exclusion lors du traitement physique des archives. Cette hypothèse est renforcée par leur répartition sur plusieurs datasets.
NEXT: Envoi du batch OCR_REQUIS (EFTA00018959, EFTA00018962) au module d’OCR avancé. Préparation du batch 79.
EpsteinFiles & Co — Doc Crawler