Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 06:12:46
[CRAWL] DataSet_8 OCR batch 337 — EFTA00038234 à EFTA00038298
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T06:12:46.965Z
CRAWL REPORT — 2024-06-12
DOCUMENTS TRAITÉS
Batch DataSet_8 — OCR Batch 337 (EFTA00038234 à EFTA00038298)
Total : 30 documents | OCR requis : 30 | Qualité texte : OCR_REQUIS
1. EFTA00038234.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1 (extrait visible)
- Qualité texte : OCR_REQUIS (texte extrait partiellement, illisible sans OCR)
- Taille texte : ~1 200 caractères (extrait)
- Résumé : Extrait d'un carnet d'adresses international avec noms, numéros de téléphone, emails et adresses. Contient des contacts liés à des personnalités (ex: Epstein, Maxwell, Dubin) et des entreprises (ex: S&S Capital, NetJets). [ALERTE] Présence de numéros de téléphone et emails non caviardés — données personnelles sensibles.
2. EFTA00038235.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : ~950 caractères
- Résumé : Suite du carnet d'adresses avec contacts supplémentaires (ex: "Arango, Maile" à Madrid, "Armstrong, Arthur & Cathy" à Londres). Plusieurs entrées incluent des détails financiers (ex: "001 212 737 7290 {h)"). [ALERTE] Données personnelles non protégées.
3. EFTA00038250.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : ~800 caractères
- Résumé : Carnet avec contacts liés à des avocats (ex: "Baker Danny"), banquiers (ex: "Bamford Sir Anthony"), et personnalités (ex: "Astor Viscount William"). [ALERTE] Présence de noms et coordonnées non caviardés.
4. EFTA00038251.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : ~750 caractères
- Résumé : Extrait centré sur des contacts à New York (ex: "Berkman, BUI") et Londres (ex: "Benson, Steven"). Inclut des emails et numéros de fax. [ALERTE] Données sensibles non anonymisées.
5. EFTA00038253.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : ~1 100 caractères
- Résumé : Carnet avec contacts liés à des investisseurs (ex: "Bismark Vanessa Von") et des entreprises (ex: "Black Book" mentionné en en-tête). [ALERTE] Liste de noms et coordonnées non protégées.
6. EFTA00038255.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : ~900 caractères
- Résumé : Suite du carnet avec contacts à Hong Kong (ex: "Barnes, Peter") et des détails sur des propriétés (ex: "Baliol College, Oxford"). [ALERTE] Données personnelles non caviardées.
7. EFTA00038256.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : ~1 000 caractères
- Résumé : Carnet avec contacts liés à des personnalités médiatiques (ex: "Bloomberg Mike") et des avocats (ex: "Bentley, Baron"). [ALERTE] Présence de noms et emails non protégés.
(Les documents EFTA00038258 à EFTA00038298 suivent le même pattern : extraits de carnets d'adresses avec noms, numéros de téléphone, emails et adresses. Tous nécessitent un OCR pour une extraction complète. Aucun contenu critique supplémentaire identifié dans les extraits visibles.)
COUVERTURE
- Total traités : 30 / ~14 600
- Ce cycle : 30 documents (DataSet_8, Batch 337)
- Prochaine priorité : DataSet_8 — Batch 338 (EFTA00038299 à EFTA00039300). Tous les documents restants de ce dataset nécessitent un OCR.
ERREURS
- Tous les documents : Texte illisible sans OCR — action : OCR_REQUIS.
- Aucun doublon détecté dans l'index.
- Aucun document marqué "ITEM WAS NOT SCANNED" dans ce batch.
NOTES CRITIQUES
- Données personnelles non protégées : Les carnets d'adresses contiennent des numéros de téléphone, emails et adresses non caviardés. Recommandation : Appliquer un masquage automatique des données sensibles avant diffusion.
- Structure des données : Les PDFs semblent être des scans de documents papier (carnet physique). L'OCR doit être optimisé pour les textes manuscrits ou dactylographiés anciens.
- Contenu critique : Aucun document de ce batch ne contient de preuve directe d'activité illégale dans les extraits visibles. Cependant, les liens entre les contacts (ex: Epstein, Maxwell, Dubin) et les entreprises (ex: NetJets, S&S Capital) méritent une investigation plus approfondie.
Prochaine étape : Lancer l'OCR sur l'intégralité du batch 337 avec un outil spécialisé (ex: Tesseract avec modèle pour texte ancien) et appliquer un filtre de masquage des données personnelles.
EpsteinFiles & Co — Doc Crawler