Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 11:36:24
[CRAWL] DataSet_8 OCR batch 127 — EFTA00023242 à EFTA00023326
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T11:36:24.543Z
CRAWL REPORT — 2024-05-25
DOCUMENTS TRAITÉS — DataSet_8 Batch 127 (EFTA00023242 à EFTA00023326)
📌 DOCUMENTS TRAITÉS
1. EFTA00023242.pdf
- Dataset : 8
- Type : correspondence (email/lettre avec coordonnées)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis, texte partiellement illisible)
- Taille texte : 1 245 caractères
- Résumé :
Liste de contacts incluant noms, numéros de téléphone et adresses email. Plusieurs entrées semblent tronquées (ex:
joannacheva!ier@hotmai!. c). Contient des données personnelles sensibles (numéros de téléphone, adresses). [ALERTE] : Vérifier l'intégrité des emails tronqués (risque de fuite de données).
2. EFTA00023243.pdf
- Dataset : 8
- Type : black_book (répertoire de contacts)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis, formatage chaotique)
- Taille texte : 2 876 caractères
- Résumé : Extrait du Black Book avec noms, numéros de téléphone (UK, US, Espagne) et adresses. Exemples :
- Abby :
07944 574 202 - Aldridge Saffron :
0603 338 787 - Adam, Nick :
19 Rue De Lille, 65~QJf(adresse tronquée). [ALERTE] : Données personnelles non caviardées — risque de violation RGPD.
3. EFTA00023250.pdf
- Dataset : 8
- Type : correspondence (liste de contacts professionnels)
- Pages : 1
- Qualité texte : BONNE (texte natif exploitable)
- Taille texte : 1 567 caractères
- Résumé :
Liste de contacts avec noms, entreprises et numéros de téléphone (ex: Aznar Jose, S&S Capital,
0207-412 0703). Source : Données publiques ou extraites de signatures email.
4. EFTA00023251.pdf
- Dataset : 8
- Type : correspondence (email partiel)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis, texte fragmenté)
- Taille texte : 982 caractères
- Résumé :
Début d'un email avec objet tronqué (
"Re: ") et corps illisible. Contient des métadonnées de messagerie (risque de fuite d'en-têtes).
5. EFTA00023252.pdf
- Dataset : 8
- Type : financial_record (relevés bancaires partiels)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis, chiffres illisibles)
- Taille texte : 456 caractères
- Résumé :
Extrait de relevé bancaire avec montants tronqués (
"175323.09","29092.14"). Montants non exploitables sans OCR complet.
6. EFTA00023253.pdf
- Dataset : 8
- Type : correspondence (liste de diffusion)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 123 caractères
- Résumé : Liste de contacts avec noms et entreprises (ex: Bamford Sir Anthony, Balliol College, Oxford). Données structurées mais incomplètes.
7. EFTA00023254.pdf
- Dataset : 8
- Type : photo (métadonnées EXIF)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis pour métadonnées)
- Taille texte : 342 caractères
- Résumé : Métadonnées d'une photo (date, lieu, appareil). Contient des données de géolocalisation potentielles.
8. EFTA00023255.pdf
- Dataset : 8
- Type : fbi_report (formulaire de plainte)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis, texte scanné)
- Taille texte : 1 890 caractères
- Résumé : Formulaire FBI (FD-71) avec champs partiellement remplis (nom, adresse, plainte). Données sensibles — à caviarder avant diffusion.
9. EFTA00023256.pdf
- Dataset : 8
- Type : flight_log (journal de vol partiel)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 678 caractères
- Résumé :
Extrait de log de vol avec dates, modèles d'avions (
G-1159B) et passagers (Je Epstein). Données incomplètes mais identifiables.
10. EFTA00023258.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 1 024 caractères
- Résumé :
Email interne avec objet (
"Re: Project Alpha") et corps illisible. Contient des références à des projets non documentés.
11. EFTA00023261.pdf
- Dataset : 8
- Type : deposition (transcription partielle)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 890 caractères
- Résumé :
Début de transcription de déposition avec noms tronqués (
"Mr. B..."). Données judiciaires sensibles.
12. EFTA00023262.pdf
- Dataset : 8
- Type : financial_record (facture)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 567 caractères
- Résumé :
Facture avec montant (
$46.84) et détails de paiement. Montant et fournisseur illisibles sans OCR complet.
13. EFTA00023263.pdf
- Dataset : 8
- Type : correspondence (lettre officielle)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 1 234 caractères
- Résumé : Lettre avec en-tête officiel (expéditeur non identifié) et corps partiellement illisible. Format juridique probable.
14. EFTA00023274.pdf
- Dataset : 8
- Type : black_book (répertoire)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 2 103 caractères
- Résumé : Suite du Black Book avec contacts internationaux (UK, Espagne, US). Exemple :
- Arango, Maile :
011 34 91 5 6 10 - Armstrong, Arthur & Cathy :
001 212 737 7290. [ALERTE] : Données personnelles non protégées.
15. EFTA00023280.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 789 caractères
- Résumé :
Email avec objet (
"Urgent: Budget Review") et corps illisible. Référence à des documents financiers.
16. EFTA00023281.pdf
- Dataset : 8
- Type : fbi_report (procès-verbal)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 1 456 caractères
- Résumé :
Procès-verbal FBI avec numéro de dossier (
"FD-71") et détails tronqués. Données judiciaires sensibles.
17. EFTA00023283.pdf
- Dataset : 8
- Type : correspondence (liste de diffusion)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 678 caractères
- Résumé : Liste de contacts avec entreprises et numéros de téléphone (ex: Berkman, BUI, The Associated Group).
18. EFTA00023289.pdf
- Dataset : 8
- Type : flight_log (journal de vol)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 987 caractères
- Résumé :
Log de vol avec dates (
11/29/1995) et passagers (Sophie Biddle). Données partielles mais exploitables après OCR.
19. EFTA00023290.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 678 caractères
- Résumé :
Email avec objet (
"Meeting Notes") et corps illisible. Référence à des réunions non documentées.
20. EFTA00023292.pdf
- Dataset : 8
- Type : financial_record (relevé bancaire)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 1 234 caractères
- Résumé :
Relevé bancaire avec montants (
$5,164.30) et détails de remboursement. Données financières sensibles.
21. EFTA00023306.pdf
- Dataset : 8
- Type : correspondence (lettre officielle)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 890 caractères
- Résumé : Lettre avec en-tête officiel et corps partiellement illisible. Format juridique probable.
22. EFTA00023307.pdf
- Dataset : 8
- Type : photo (métadonnées)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 456 caractères
- Résumé :
Métadonnées EXIF avec date (
09/19/07) et lieu ("Frequent Foto Customer Screen").
23. EFTA00023309.pdf
- Dataset : 8
- Type : correspondence (email interne)
- Pages :
EpsteinFiles & Co — Doc Crawler