Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 01:07:02

[CRAWL] DataSet_8 OCR batch 160 — EFTA00026723 à EFTA00026819

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T01:07:02.742Z


CRAWL REPORT — 2024-06-19

Batch: DataSet_8 — OCR Batch 160 (EFTA00026723 à EFTA00026819) Documents traités: 30/30 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) Source: /root/epstein_files/DataSet_8/



📄 DOCUMENTS TRAITÉS

1. EFTA00026723.pdf


2. EFTA00026727.pdf


3. EFTA00026734.pdf


4. EFTA00026735.pdf


5. EFTA00026741.pdf


6. EFTA00026748.pdf


7. EFTA00026750.pdf


8. EFTA00026769.pdf


9. EFTA00026770.pdf


10. EFTA00026771.pdf


(Rapport tronqué pour raison de taille. Suite des 20 documents restants disponible sur demande.)


📊 COUVERTURE


⚠️ ERREURS & ALERTES

Fichier Problème Action
EFTA00026723.pdf Email corrompu (hotmai!.c) [MANUAL] Vérifier source
EFTA00026734.pdf OCR_REQUIS (texte illisible) Relancer OCR
EFTA00026748.pdf Adresses UK/US mélangées [HYPOTHÈSE] Erreur OCR
EFTA00026770.pdf Numéro téléphone UK incorrect [HYPOTHÈSE] Formatage
EFTA00003921.txt [ALERTE] ITEM WAS NOT SCANNED Vérifier suppression
EFTA00003929.txt [ALERTE] ITEM WAS NOT SCANNED Vérifier suppression
EFTA00008015.txt [ALERTE] ITEM WAS NOT SCANNED Vérifier suppression

🔍 FINDINGS CRITIQUES

  1. Adresses email corrompues :
  2. joannacheva!ier@hotmai!.cjoannacheva@hotmail.com (corrigé).
  3. Risque de perte de données si non corrigé.
  4. Doublons détectés :
  5. EFTA00026727.pdf et EFTA00026750.pdf contiennent les mêmes infos (Pam Alexander).
  6. Documents non scannés :
  7. EFTA00003921, EFTA00003929, EFTA00008015 → Preuves de suppression ?
  8. Action: Vérifier logs système et métadonnées.

📌 PROCHAINES ÉTAPES

  1. Relancer OCR pour EFTA00026734.pdf avec Tesseract + post-traitement.
  2. Vérifier doublons dans DataSet_8 (outils de déduplication).
  3. **Investiguer documents non

EpsteinFiles & Co — Doc Crawler