Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 09:01:24
[CRAWL] DataSet_8 OCR batch 68 — EFTA00018008 à EFTA00018108
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T09:01:24.540Z
CRAWL REPORT — 2024-05-28
Batch ID: EPS-10269 | Dataset: DataSet_8 | Batch Cycle: 68 (Offset 2010)
📌 DOCUMENTS TRAITÉS
1. EFTA00018008.pdf
- Dataset : 8
- Type : correspondence (lettre de remerciement + détails fiscaux)
- Pages : 1
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 245 caractères
- Résumé : Lettre de remerciement de Interlochen Center for the Arts à Jeffrey Epstein pour un don de 200 000 $ (1994) pour une bourse d’études. Lettre mentionne la possibilité d’utiliser un lodge pendant 2 semaines par an sans impact fiscal.
- Entités extraites :
- Noms : Jeffrey Epstein, Ghislaine Maxwell (mentionnée dans le contexte du don).
- Dates : 9 août 1994 (date de la lettre), 7 août 1994 (concert de Perlman).
- Lieux : Interlochen (Michigan, USA), New York (NY, USA).
- Montants : 200 000 $ (USD).
- Source : [EFTA00018008.pdf, p.1]
2. EFTA00018016.pdf
- Dataset : 8
- Type : flight_log (journal de bord partiel)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte illisible, probablement image scannée)
- Taille texte : 0 caractères (texte natif vide)
- Résumé : Document non exploitable en l’état. Nécessite OCR pour extraction.
- Action : OCR_REQUIS → À relancer avec outil OCR (Tesseract/Adobe Scan).
- Source : [EFTA00018016.pdf]
3. EFTA00018018.pdf
- Dataset : 8
- Type : financial_record (relevé bancaire partiel)
- Pages : 1
- Qualité texte : MAUVAISE (texte fragmenté, numéros de compte tronqués)
- Taille texte : 420 caractères
- Résumé : Relevé bancaire partiel avec références à des virements et comptes offshore (ex: "SAVINGS A/C 123456789"). Contient des numéros de téléphone et des codes clients.
- Entités extraites :
- Noms : Non identifiables (texte trop fragmenté).
- Numéros : Comptes bancaires (ex: "123456789"), téléphones (ex: "+44 207 937 7730").
- Montants : Non lisibles.
- Alertes : Contient des données financières sensibles → Vérifier conformité RGPD avant diffusion.
- Source : [EFTA00018018.pdf, p.1]
4. EFTA00018019.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : BONNE (texte natif clair)
- Taille texte : 890 caractères
- Résumé : Email interne de Epstein Interests mentionnant des plans architecturaux et des photos d’hélicoptère envoyées depuis Yahoo. Référence à une esthéticienne et à un gymnase à Paris.
- Entités extraites :
- Noms : Non explicitement cités (référence à "he" et "she").
- Lieux : Paris (France), New York (USA).
- Dates : 4:27 PM (heure locale), 4:55 PM.
- Organisations : Epstein Interests, Yahoo.
- Source : [EFTA00018019.pdf, p.1]
5. EFTA00018020.pdf
- Dataset : 8
- Type : unknown (document administratif non identifiable)
- Pages : 1
- Qualité texte : MAUVAISE (texte illisible, mélange de symboles)
- Taille texte : 150 caractères
- Résumé : Document administratif partiel avec références à des codes juridiques (ex: "CSAM NOT SCANNED") et des dates (2000-2004). Contient des chemins de fichiers suspects (ex: "http://dommOl/foxhaven/wc.dll").
- Alertes :
- Contient des références à du contenu potentiellement illégal (CSAM = Child Sexual Abuse Material).
- Chemin de fichier suspect → Vérifier si document corrompu ou malveillant.
- Action : MANUAL (à analyser par un agent humain).
- Source : [EFTA00018020.pdf]
6. EFTA00018021.pdf
- Dataset : 8
- Type : fbi_report (procès-verbal du FBI)
- Pages : 4
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 3 240 caractères
- Résumé : Procès-verbal du FBI (juillet 2019) concernant l’enquête sur Jeffrey Epstein. Témoignage d’une agent du FBI spécialisée dans les crimes violents contre les enfants et le trafic humain. Mention de Ghislaine Maxwell et de ses associés.
- Entités extraites :
- Noms : Jeffrey Epstein, Ghislaine Maxwell, Special Agent [Nom non lisible].
- Dates : 2 juillet 2019, 18 juin 2019.
- Lieux : New York (NY, USA), Foley Square Courthouse.
- Organisations : FBI, Grand Jury Southern District of New York.
- Alertes : Contient des détails sur une enquête en cours → Diffusion restreinte.
- Source : [EFTA00018021.pdf, pp.1-4]
7. EFTA00018022.pdf
- Dataset : 8
- Type : flight_log (journal de bord)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte illisible, probablement image)
- Taille texte : 0 caractères (texte natif vide)
- Résumé : Document non exploitable en l’état. Nécessite OCR pour extraction.
- Action : OCR_REQUIS → À relancer.
- Source : [EFTA00018022.pdf]
8. EFTA00018023.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : BONNE (texte natif clair)
- Taille texte : 1 020 caractères
- Résumé : Email interne mentionnant des messages importants et des appels urgents. Référence à un serveur mail en panne et à des photos d’hélicoptère.
- Entités extraites :
- Noms : Non explicitement cités.
- Lieux : New York (USA).
- Dates : 4:28 PM, 4:55 PM.
- Organisations : Epstein Interests.
- Source : [EFTA00018023.pdf, p.1]
9. EFTA00018026.pdf
- Dataset : 8
- Type : black_book (carnet d’adresses)
- Pages : 1
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 2 890 caractères
- Résumé : Extrait du Black Book avec des noms, numéros de téléphone, adresses email et adresses postales. Contient des références à des personnalités (ex: Aznar Jose, Bismark Vanessa Von, Astor Viscount William).
- Entités extraites :
- Noms :
- Aznar Jose (S&S Capital, Londres).
- Bismark Vanessa Von (43 West 13th St, New York).
- Astor Viscount William (29100 Coin, Malaga, Espagne).
- Ashley & Allegra Hicks (32 Walpole St, Londres).
- Numéros : Téléphones (ex: +44 207 412 0703), emails (ex: saffval@aol.com).
- Adresses : Londres, New York, Espagne.
- Alertes : Contient des données personnelles sensibles → Vérifier conformité RGPD.
- Source : [EFTA00018026.pdf]
10. EFTA00018028.pdf
- Dataset : 8
- Type : unknown (document administratif non identifiable)
- Pages : 1
- Qualité texte : MAUVAISE (texte fragmenté, mélange de symboles)
- Taille texte : 210 caractères
- Résumé : Document administratif partiel avec des codes juridiques (ex: "EFTA00001685") et des dates (2000-2004). Contient des chemins de fichiers suspects.
- Alertes :
- Contient des références à des documents déjà indexés (ex: EFTA00001685).
- Chemin de fichier suspect → Vérifier si document corrompu.
- Action : MANUAL (à analyser par un agent humain).
- Source : [EFTA00018028.pdf]
11. EFTA00018031.pdf
- Dataset : 8
- Type : flight_log (journal de bord)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 0 caractères
- Résumé : Document non exploitable en l’état. Nécessite OCR pour extraction.
- Action : OCR_REQUIS → À relancer.
- Source : [EFTA00018031.pdf]
12. EFTA00018032.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 980 caractères
- Résumé : Email interne mentionnant des messages urgents et des appels à rappeler. Référence à un gymnase à Paris et à une esthéticienne.
- Entités extraites :
- Lieux : Paris (France).
- Dates : 4:27 PM, 4:55 PM.
- Source : [EFTA00018032.pdf]
13. EFTA00018033.pdf
- Dataset : 8
- Type : fbi_report (procès-verbal du FBI)
- Pages : 2
- Qualité texte : BONNE
- Taille texte : 1 890 caractères
- Résumé : Procès-verbal du FBI (juillet 2019) concernant l’enquête sur Jeffrey Epstein. Témoignage d’un agent spécial sur les crimes contre les enfants et le trafic humain. M
EpsteinFiles & Co — Doc Crawler