Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 15:24:47
[CRAWL] DataSet_8 OCR batch 264 — EFTA00034045 à EFTA00034098
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T15:24:47.448Z
CRAWL REPORT — 2024-06-25
Batch: DataSet_8 — OCR Batch 264 (EFTA00034045 à EFTA00034098)
Agent: CRAWLER (Groq, llama-4-scout-17b-16e-instruct)
Source: /root/epstein_files/DataSet_8/
DOCUMENTS TRAITÉS
1. EFTA00034045.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS pour nettoyage)
- Taille texte : 1 247 caractères
- Résumé : Document contenant des extraits de contacts (noms, numéros de téléphone, emails) et des références à des lieux (ex: "19 Rue De Lille", "London SW1"). Présence de données personnelles sensibles (numéros de téléphone, adresses). Contenu critique : [ALERTE] Données personnelles non caviardées détectées (noms, numéros, emails). À traiter avec précaution pour anonymisation.
2. EFTA00034046.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 892 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Abby 07944 574 202", "Aldridge Saffron"). Présence de données personnelles. Contenu critique : [ALERTE] Données personnelles non caviardées. Risque de violation de vie privée.
3. EFTA00034047.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 012 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Adam, Nick 19 Rue De Lille", "Allan, Nick & Sarah"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
4. EFTA00034048.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 987 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Althorp, Charlie 0207-229 1573"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
5. EFTA00034049.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 123 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Alun..Jones, Carella 34 Eaton Place"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
6. EFTA00034050.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 876 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Amon, Roberta & Maurice 4 East 72 Street"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
7. EFTA00034051.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 054 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Anastos Lisa 200 E 72nd"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
8. EFTA00034052.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 932 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Anderson, Lulu"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
9. EFTA00034053.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 189 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Appleby, Robert & Alex"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
10. EFTA00034054.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 845 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Arango, Maile"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
11. EFTA00034055.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 023 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Armstrong, Arthur & Cathy"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
12. EFTA00034056.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 912 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Arion Joaquin Fernandez de Cordoba"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
13. EFTA00034057.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 101 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Ash, Lorinda"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
14. EFTA00034059.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 898 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Ashley & Allegra Hicks"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
15. EFTA00034061.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 045 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Astaire, Mr Simon"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
16. EFTA00034064.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 923 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Baddeley, Jean"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
17. EFTA00034065.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 156 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex: "Baker Danny"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
18. EFTA00034066.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement illisible, OCR_REQUIS)
- Taille texte : 876 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone et emails (ex: "Bamford Sir Anthony and Lady C"). Données personnelles sensibles. Contenu critique : [ALERTE] Données personnelles non caviardées.
19. EFTA00034067.pdf
- Dataset : 8
- Type : unknown (texte brut non structuré)
- Pages : 1 (extraction native)
- Qualité texte : MAUVAISE (texte partiellement corrompu, OCR_REQUIS)
- Taille texte : 1 012 caractères
- Résumé : Liste de contacts avec noms, adresses et numéros de téléphone (ex:
EpsteinFiles & Co — Doc Crawler