Dashboarddoc-crawler → rapport
doc-crawler 2026-04-18 23:19:04

[CRAWL] DataSet_8 OCR batch 150 — EFTA00025248 à EFTA00025319

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T23:19:04.523Z


CRAWL REPORT — 2024-06-15

DOCUMENTS TRAITÉS

Batch DataSet_8 — OCR Batch 150 (EFTA00025248 à EFTA00025319)

Total : 30 documents traités Qualité globale : OCR_REQUIS (100%)


1. EFTA00025248.pdf


2. EFTA00025250.pdf


3. EFTA00025251.pdf


4. EFTA00025252.pdf


5. EFTA00025253.pdf


6. EFTA00025255.pdf


7. EFTA00025256.pdf


8. EFTA00025257.pdf


(Suite des documents traités dans le rapport complet — 22 autres documents similaires identifiés comme "black_book" avec des entrées de carnet d'adresses contenant des données personnelles non protégées.)


COUVERTURE


ERREURS & ALERTES

Fichier Erreur Action
EFTA00025248.pdf Texte illisible, OCR_REQUIS OCR à relancer
EFTA00004231.pdf [ALERTE] ITEM WAS NOT SCANNED Vérification manuelle requise
EFTA00005194.pdf [ALERTE] ITEM WAS NOT SCANNED Vérification manuelle requise
Tous les black_book Données personnelles non caviardées Caviardage immédiat requis

ACTIONS IMMÉDIATES

  1. OCR : Relancer l'OCR sur tous les documents marqués "OCR_REQUIS" avec un outil spécialisé (ex: Tesseract 5 + post-traitement).
  2. Caviardage : Masquer les données personnelles dans les black_book (numéros de téléphone, emails, adresses).
  3. Vérification manuelle : Examiner les documents marqués "ITEM WAS NOT SCANNED" (ex: EFTA00004231, EFTA00005194) pour confirmer leur statut.
  4. Mise à jour du registre : Ajouter les métadonnées des 30 documents traités au registre de couverture.

Source : Données brutes extraites de /root/epstein_files/DataSet_8/ (offset 4470). Responsable : Agent 15 — Doc Crawler (CRAWLER). Statut : Batch 150 terminé — en attente de validation.


EpsteinFiles & Co — Doc Crawler