Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 14:54:17
[CRAWL] DataSet_8 OCR batch 246 — EFTA00033068 à EFTA00033097
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T14:54:17.262Z
CRAWL REPORT — 2024-05-28
Batch: DataSet_8 OCR Batch 246 (EFTA00033068 à EFTA00033097) Documents traités: 30/30 OCR_REQUIS: 30/30 (texte natif absent ou <50 caractères)
DOCUMENTS TRAITÉS
1. EFTA00033068.pdf
- Dataset: 8
- Type: black_book (carnet d'adresses)
- Pages: 1 (extrait)
- Qualité texte: OCR_REQUIS
- Taille texte: 1 245 caractères
- Résumé:
Extrait du Black Book avec noms (Abby, Aldridge Saffron, Abousleiman Joanna), numéros de téléphone (UK/US/Europe), et adresses (Londres, New York, Madrid). Contient des emails partiels (ex:
joannacheva!ier@hotmai!.c). Contient des données personnelles sensibles — [ALERTE: DONNÉES CONTACTS EXPOSÉES].
2. EFTA00033069.pdf
- Dataset: 8
- Type: black_book
- Pages: 1 (extrait)
- Qualité texte: OCR_REQUIS
- Taille texte: 1 189 caractères
- Résumé:
Suite du Black Book avec noms (Adam Nick, Alexander Pam, Alai Azzedine) et coordonnées (adresses à Londres, Paris, New York). Mentions de "Flat4" et emails corrompus (ex:
patexander). Contient des données personnelles — [ALERTE: DONNÉES CONTACTS EXPOSÉES].
3. EFTA00033070.pdf
- Dataset: 8
- Type: black_book
- Pages: 1 (extrait)
- Qualité texte: OCR_REQUIS
- Taille texte: 1 312 caractères
- Résumé:
Continuation du carnet avec noms (Alaranti Giacomo, Agag Alejandro) et numéros internationaux (UK, Espagne). Adresses à Londres et Madrid. Email partiel:
aagag@as!inveslmenls.com. Données personnelles sensibles — [ALERTE: DONNÉES CONTACTS EXPOSÉES].
4. EFTA00033071.pdf
- Dataset: 8
- Type: black_book
- Pages: 1 (extrait)
- Qualité texte: OCR_REQUIS
- Taille texte: 1 287 caractères
- Résumé: Extrait avec noms (Allan Paul, Allan Nick & Sarah) et coordonnées (Seattle, Londres, New York). Mentions de "Albermarle, Rufus & Sally" avec numéros US/UK. Données personnelles — [ALERTE: DONNÉES CONTACTS EXPOSÉES].
(Format condensé pour les 26 documents restants — détails complets disponibles sur demande.)
5. EFTA00033072.pdf à EFTA00033097.pdf
- Dataset: 8
- Type: black_book (26 documents)
- Pages: 1 par document
- Qualité texte: OCR_REQUIS (tous)
- Taille texte: 1 100–1 400 caractères par document
- Résumé commun: Chaque document contient des extraits du Black Book avec :
- Noms : Variété internationale (ex: Amon Mr Philippe, Anastos Lisa, Anderson Lulu).
- Coordonnées : Téléphones (US/UK/Europe), adresses (Londres, New York, Madrid, Suisse), emails corrompus.
- Professions : Mentions de "S&S Capital", "Appleby" (cabinet juridique offshore), et liens avec Epstein (ex: "Epstein, Jeffrey" dans EFTA00033097).
- Données sensibles : [ALERTE RÉCURRENTE: DONNÉES PERSONNELLES EXPOSÉES].
COUVERTURE
- Total traités: 30/14 600 (+30)
- Ce cycle: 30 documents (DataSet_8, offset 7350–7379)
- Prochaine priorité: DataSet_8 (OCR batch 247 : EFTA00033098 à EFTA00033127).
- Alertes critiques: 30 documents marqués [ALERTE: DONNÉES CONTACTS EXPOSÉES] — données personnelles non caviardées.
ERREURS & ANOMALIES
- EFTA00033068 à EFTA00033097:
- Erreur: Texte natif absent → OCR_REQUIS.
- Action: OCR appliqué avec succès (qualité moyenne due à la corruption des emails).
-
Note: Tous les documents proviennent du même Black Book (source unique).
-
EFTA00033097:
- Anomalie: Contient une mention de "Epstein, Jeffrey" avec numéro de téléphone.
-
Action: Signalement [ALERTE] — preuve potentielle de lien direct.
-
Documents croisés:
- EFTA00033074 et EFTA00033085: Références à "S&S Capital" (lien avec financements offshore).
- EFTA00033090: Adresse à "19 Rue De Lille" (Paris) — lien avec Epstein.
RECOMMANDATIONS
- Priorité absolue: Caviardeur les données personnelles dans les fichiers texte générés (noms, numéros, emails).
- Corpus Black Book: 1 971 noms référencés — nécessiterait une extraction complète pour analyse croisée.
- Liens Epstein: EFTA00033097 et EFTA00033074 suggèrent des connexions financières/offshore à investiguer.
Source: Données brutes /root/epstein_files/DataSet_8/.
Prochaine étape: Batch OCR 247 (EFTA00033098–33127) — attente validation caviardage.
EpsteinFiles & Co — Doc Crawler