[CRAWL] DataSet_8 OCR batch 335 — EFTA00038127 à EFTA00038179
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T18:37:07.736Z
CRAWL REPORT — 2024-05-30
DOCUMENTS TRAITÉS
EFTA00038127.pdf
- Dataset : 8
- Type : correspondence (liste de contacts)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte extrait partiellement, structure complexe)
- Taille texte : ~1 200 caractères
- Résumé : Document contenant une liste de contacts internationaux avec noms, adresses, numéros de téléphone et emails. Plusieurs entrées semblent incomplètes ou corrompues (ex: "joannacheva!ier@hotmai!. c"). [ALERTE] Présence de données personnelles sensibles (numéros de téléphone, adresses) — à anonymiser avant diffusion.
EFTA00038129.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte extrait partiellement, formatage complexe)
- Taille texte : ~1 500 caractères
- Résumé : Carnet d'adresses avec noms (ex: "Abby", "Aldridge Saffron"), numéros de téléphone (UK, US, Espagne) et emails. Plusieurs entrées illisibles (ex: "aagag@as!inveslmenls.com"). [ALERTE] Données personnelles sensibles — nécessite nettoyage avant traitement ultérieur.
EFTA00038131.pdf
- Dataset : 8
- Type : financial_record (relevés bancaires)
- Pages : 2
- Qualité texte : OCR_REQUIS (tableaux financiers mal extraits)
- Taille texte : ~800 caractères
- Résumé : Relevés de transactions financières avec montants en USD et dates. Les colonnes sont mal alignées, rendant l'interprétation difficile. [ALERTE] Montants non vérifiés — à recroiser avec les sources originales.
EFTA00038132.pdf
- Dataset : 8
- Type : deposition (transcription judiciaire)
- Pages : 3
- Qualité texte : BONNE (texte natif extrait avec succès)
- Taille texte : ~4 500 caractères
- Résumé :
Transcription d'une déposition judiciaire (affaire Epstein) avec noms de témoins (ex: "Special Agent"), dates (juin 2019) et détails sur l'enquête (Violent Crimes Against Children squad).
Extrait critique :
"We investigate crimes that have to do with child sexual abuse material, sextortion, exploitation, and enticement of minors, sex trafficking." [ALERTE] Contenu hautement sensible — à classer "RESTREINT".
EFTA00038134.pdf
- Dataset : 8
- Type : flight_log (journal de bord aérien)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~300 caractères
- Résumé :
Log de vol pour un trajet West Palm Beach → Teterboro (NJ) le 26/11/1995 avec passagers (ex: "Ghislaine Maxwell", "Matt Grippi"). Aéronef : Gulfstream G-1159B (N908JE).
Extrait critique :
"782 Pass 1: Maxwell, Ghislaine — GM"
EFTA00038135.pdf
- Dataset : 8
- Type : financial_record (facture FedEx)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~200 caractères
- Résumé :
Facture FedEx pour un envoi depuis "457 Madison Ave, New York" (Jeffrey Epstein) vers une adresse non spécifiée. Montant : $19.84 (transport + frais).
Extrait critique :
"Shipper: Jeffrey E. Epstein — 457 Madison Ave, New York, NY 10022-6843"
EFTA00038136.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte partiellement illisible)
- Taille texte : ~500 caractères
- Résumé : Email interne avec objet "IMPORTANT MESSAGE" et mentions de "PLEASE CALL", "WILL CALL AGAIN". Expéditeur non identifiable (texte corrompu). [ALERTE] Contenu potentiellement critique — à investiguer manuellement.
EFTA00038138.pdf
- Dataset : 8
- Type : fbi_report (rapport d'enquête)
- Pages : 4
- Qualité texte : BONNE
- Taille texte : ~6 000 caractères
- Résumé :
Rapport du FBI détaillant une chaîne de garde à vue ("Chain of Custody") pour une interception légale (ELSUR). Mentionne des dates (6-5-41), lieux ("Vil/S"), et noms de suspects ("Alec").
Extrait critique :
"Court Authorized: Enter 'See Log' Below" [ALERTE] Preuve potentielle de surveillance illégale — à transmettre à l'équipe juridique.
EFTA00038139.pdf
- Dataset : 8
- Type : unknown (document non classable)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : <50 caractères
- Résumé : Document non identifiable — texte trop dégradé pour classification. Action : À réessayer avec OCR amélioré ou marquer "ABANDON".
EFTA00038141.pdf
- Dataset : 8
- Type : indictment (acte d'accusation)
- Pages : 2
- Qualité texte : BONNE
- Taille texte : ~3 000 caractères
- Résumé :
Acte d'accusation contre Ghislaine Maxwell (2021) pour "conspiracy to entice minors to travel to engage in illegal sex acts". Détails sur les victimes (âgées de 14 ans) et les méthodes de recrutement.
Extrait critique :
"MAXWELL assisted, facilitated, and contributed to Jeffrey Epstein's abuse of minor girls..." [ALERTE] Document judiciaire hautement sensible — diffusion restreinte.
EFTA00038142.pdf
- Dataset : 8
- Type : flight_log (journal de bord)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~250 caractères
- Résumé :
Log de vol pour un trajet Columbus (OH) → West Palm Beach (FL) le 30/11/1995. Passagers : Jeffrey Epstein et "Sophie Biddle".
Extrait critique :
"784 Pass 1: Epstein, Jeffrey — JE"
EFTA00038143.pdf
- Dataset : 8
- Type : financial_record (relevé bancaire)
- Pages : 2
- Qualité texte : OCR_REQUIS (tableaux mal extraits)
- Taille texte : ~900 caractères
- Résumé : Relevé bancaire avec transactions en USD et dates. Les montants sont partiellement illisibles. [ALERTE] À recroiser avec les documents originaux.
EFTA00038144.pdf
- Dataset : 8
- Type : photo (document scanné)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte absent, image seule)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte extractible — probablement une photo ou un scan de mauvaise qualité. Action : À classer "PHOTO" et archiver séparément.
EFTA00038145.pdf
- Dataset : 8
- Type : email (correspondance)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte partiellement corrompu)
- Taille texte : ~600 caractères
- Résumé :
Email avec objet "Federal Express Record" et détails d'expédition (numéro de suivi, adresse de livraison).
Extrait critique :
"Picked up Oct 07, 2002 — Delivered Oct 08, 2002"
EFTA00038146.pdf
- Dataset : 8
- Type : flight_log (journal de bord)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~300 caractères
- Résumé :
Log de vol pour un trajet San Francisco → Los Angeles (décembre 2000). Passagers : "Mike" et "Son".
Extrait critique :
"Aircraft: Challenger 601 — Tail # N908JE"
EFTA00038147.pdf
- Dataset : 8
- Type : financial_record (facture)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~150 caractères
- Résumé : Facture pour un vol en janvier 2001 (trajet non spécifié). Montant : $16.00.
EFTA00038149.pdf
- Dataset : 8
- Type : unknown (document non classable)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : <50 caractères
- Résumé : Document non identifiable — texte trop dégradé. Action : À marquer "ABANDON".
EFTA00038150.pdf
- Dataset : 8
- Type : deposition (transcription judiciaire)
- Pages : 3
- Qualité texte : BONNE
- Taille texte : ~5 000 caractères
- Résumé :
Transcription d'une déposition judiciaire (juillet 2019) avec un agent du FBI. Détails sur l'enquête Epstein et les méthodes d'entretien des victimes.
Extrait critique :
"We work child exploitation, human trafficking, and international parental kidnapping matters."
EFTA00038151.pdf
- Dataset : 8
- Type : indictment (acte d'accusation)
- Pages : 2
- Qualité texte : BONNE
- Taille texte : ~4 000 caractères
- Résumé : Acte d'accusation contre Jeffrey Epstein (2019) pour trafic sexuel de mineures. Mentionne des victimes âgées de 14 à 17 ans et des complices (ex: Ghislaine Maxwell).
EFTA00038153.pdf
- Dataset : 8
- Type : flight_log (journal de bord)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~200 caractères
- Résumé : Log de vol pour un trajet New York → Palm Beach (décembre 2000). Passagers : "Jeffrey Epstein" et "Leslie".
EFTA00038157.pdf
- Dataset : 8
- Type : financial_record (relevé bancaire)
- Pages : 2
- Qualité texte : OCR_REQUIS (tableaux mal extraits)
- Taille texte : ~1 000 caractères
- Résumé : Relevé bancaire avec transactions en USD et dates. Les montants sont partiellement illisibles.
EFTA00038158.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte partiellement corrom
EpsteinFiles & Co — Doc Crawler