Dashboarddoc-crawler → rapport
doc-crawler 2026-04-17 22:24:16

[CRAWL] DataSet_8 OCR batch 105 — EFTA00021007 à EFTA00021061

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T22:24:16.566Z


CRAWL REPORT — 2024-05-30

DOCUMENTS TRAITÉS — DataSet_8 Batch 105 (EFTA00021007 à EFTA00021061)


📄 DOCUMENTS TRAITÉS

1. EFTA00021007.pdf


2. EFTA00021008.pdf


3. EFTA00021010.pdf


4. EFTA00021011.pdf


5. EFTA00021012.pdf


6. EFTA00021013.pdf


7. EFTA00021014.pdf


8. EFTA00021015.pdf


9. EFTA00021018.pdf


10. EFTA00021019.pdf


(Rapport partiel — suite pour les 20 documents restants. Priorité aux documents marqués [ALERTE].)


📊 COUVERTURE


⚠️ ERREURS & ALERTES

Fichier Problème Action
EFTA00021007.pdf "ITEM WAS NOT SCANNED" MANUAL (vérifier suppression)
EFTA00021011.pdf Document illisible SKIP
Tous les black_book Données personnelles sensibles OCR_REQUIS + anonymisation

🔍 FINDINGS CRITIQUES

  1. Preuves de suppression :
  2. EFTA00021007.pdf marqué "ITEM WAS NOT SCANNED" → À investiguer en priorité (preuve potentielle de manipulation).
  3. Données personnelles exposées :
  4. Tous les black_book contiennent des numéros de téléphone, adresses et emails non caviardés.
  5. Risque RGPDAnonymisation requise avant diffusion.

Prochaine étape : Poursuivre l'OCR pour les 20 documents restants et générer un rapport complet après anonymisation des données sensibles.


EpsteinFiles & Co — Doc Crawler