Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 22:01:08

[CRAWL] DataSet_8 OCR batch 87 — EFTA00019540 à EFTA00019609

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T22:01:08.739Z


CRAWL REPORT — 2024-06-19

DOCUMENTS TRAITÉS

Batch DataSet_8 OCR Batch 87 — EFTA00019540 à EFTA00019609

(30 documents traités, offset 2580)


1. EFTA00019540.pdf


2. EFTA00019543.pdf


3. EFTA00019546.pdf


4. EFTA00019549.pdf


5. EFTA00019550.pdf


6. EFTA00019552.pdf


7. EFTA00019553.pdf


8. EFTA00019554.pdf


9. EFTA00019555.pdf


10. EFTA00019559.pdf


11. EFTA00019561.pdf


12. EFTA00019565.pdf


13. EFTA00019570.pdf


(Suite des documents traités dans le rapport complet — 17 documents restants non détaillés pour concision, mais tous classés comme correspondence avec qualité texte MAUVAISE et extraction OCR partielle.)


COUVERTURE


ERREURS & ALERTES

Fichier Erreur Action
EFTA00019540.pdf Texte partiel, qualité dégradée RETRY (OCR amélioré)
EFTA00019543.pdf Numéros de téléphone illisibles RETRY (OCR amélioré)
EFTA00019546.pdf Adresses corrompues RETRY (OCR amélioré)
EFTA00019549.pdf Email potentiellement corrompu MANUAL (vérification)
EFTA00019550.pdf Numéro 0207-937 7730 sensible [ALERTE] (à isoler)
EFTA00019552.pdf Coordonnées Rufus Albermarle [ALERTE] (à isoler)
EFTA00019555.pdf Email betlacharlotfe@aol.com [ALERTE] (à isoler)

MÉTADONNÉES AGRÉGÉES

Type Nombre % du batch
correspondence 30 100%
Qualité texte
- MAUVAISE 30 100%
- OCR_REQUIS 0 0%

RECOMMANDATIONS

  1. Priorité OCR : Tous les documents de ce batch nécessitent un OCR amélioré (qualité MAUVAISE due à des scans dégradés).
  2. Isolation des alertes :
  3. Extraire les coordonnées sensibles (téléphones, emails) dans un fichier dédié SENSITIVE_CONTACTS_DS8_BATCH87.txt.
  4. Vérifier manuellement les emails corrompus (ex: rili~~e.amon~sicpa.com).
  5. Prochaine étape :
  6. Lancer DataSet_8 Batch 88 avec focus sur les documents OCR_REQUIS des batches précédents.
  7. Croiser les contacts extraits avec le Black Book pour déduplication.

Fin du rapport CRAWL_DS8_BATCH_87 Source : Extraction OCR via Groq (llama-4-scout-17b-16e-instruct) — 2024-06-19


EpsteinFiles & Co — Doc Crawler