Dashboarddoc-crawler → rapport
doc-crawler 2026-04-17 07:36:58

[CRAWL] DataSet_8 OCR batch 26 — EFTA00013869 à EFTA00013920

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T07:36:58.309Z


CRAWL REPORT — 2024-06-25

DOCUMENTS TRAITÉS

Batch DataSet_8 — EFTA00013869 à EFTA00013920

Total : 30 documents | OCR_REQUIS : 30 | Type : unknown (liste de contacts)


Liste des documents traités (extrait des métadonnées et résumés) :

  1. EFTA00013869.pdf
  2. Dataset : 8
  3. Type : unknown (liste de contacts)
  4. Pages : 1 (liste dense)
  5. Qualité texte : OCR_REQUIS (texte extrait mais illisible sans OCR)
  6. Taille texte : ~5 200 caractères
  7. Résumé : Liste de contacts internationaux avec noms, numéros de téléphone, adresses email et adresses postales. Présence de noms connus (ex: Epstein, Maxwell, Dubin, Greenberg) et de contacts en Europe, Asie et Amérique. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  8. EFTA00013871.pdf

  9. Dataset : 8
  10. Type : unknown (liste de contacts)
  11. Pages : 1
  12. Qualité texte : OCR_REQUIS
  13. Taille texte : ~4 800 caractères
  14. Résumé : Suite de la liste de contacts avec des entrées supplémentaires (ex: "Arango, Maile", "Armstrong, Arthur & Cathy"). Plusieurs numéros de téléphone internationaux et adresses email. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  15. EFTA00013874.pdf

  16. Dataset : 8
  17. Type : unknown (liste de contacts)
  18. Pages : 1
  19. Qualité texte : OCR_REQUIS
  20. Taille texte : ~5 000 caractères
  21. Résumé : Liste de contacts avec des noms comme "Appleby, Robert & Alex", "Astor Viscount William", et des adresses à Londres, New York et Suisse. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  22. EFTA00013875.pdf

  23. Dataset : 8
  24. Type : unknown (liste de contacts)
  25. Pages : 1
  26. Qualité texte : OCR_REQUIS
  27. Taille texte : ~4 900 caractères
  28. Résumé : Liste de contacts avec des entrées comme "Bamford Sir Anthony and Lady C", "Bannister, Clive", et des numéros de téléphone à Hong Kong et aux États-Unis. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  29. EFTA00013876.pdf

  30. Dataset : 8
  31. Type : unknown (liste de contacts)
  32. Pages : 1
  33. Qualité texte : OCR_REQUIS
  34. Taille texte : ~5 100 caractères
  35. Résumé : Liste de contacts avec des noms comme "Benson, Steven", "Bernard, Tara", et des adresses à New York et Londres. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  36. EFTA00013877.pdf

  37. Dataset : 8
  38. Type : unknown (liste de contacts)
  39. Pages : 1
  40. Qualité texte : OCR_REQUIS
  41. Taille texte : ~4 700 caractères
  42. Résumé : Liste de contacts avec des entrées comme "Bismark Vanessa Von", "Birchall, Martyn", et des numéros de téléphone en Europe et aux États-Unis. Contain des données personnelles sensibles — [ALERTE : Données PII exposées]

  43. EFTA00013878.pdf

  44. Dataset : 8
  45. Type : unknown (liste de contacts)
  46. Pages : 1
  47. Qualité texte : OCR_REQUIS
  48. Taille texte : ~5 300 caractères
  49. Résumé : Liste de contacts avec des noms comme "Bloomberg Mike", "Booth Mark & Lauren", et des adresses à New York et Londres. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  50. EFTA00013880.pdf

  51. Dataset : 8
  52. Type : unknown (liste de contacts)
  53. Pages : 1
  54. Qualité texte : OCR_REQUIS
  55. Taille texte : ~4 600 caractères
  56. Résumé : Liste de contacts avec des entrées comme "Bolsgelin, Edward de", "Booth Mark & Lauren", et des numéros de téléphone internationaux. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  57. EFTA00013881.pdf

  58. Dataset : 8
  59. Type : unknown (liste de contacts)
  60. Pages : 1
  61. Qualité texte : OCR_REQUIS
  62. Taille texte : ~5 000 caractères
  63. Résumé : Liste de contacts avec des noms comme "Baker Danny", "Bakhtiar, Shariar", et des adresses à New York et Londres. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

  64. EFTA00013882.pdf

    • Dataset : 8
    • Type : unknown (liste de contacts)
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : ~4 800 caractères
    • Résumé : Liste de contacts avec des entrées comme "Bands, Doug", "Barnes, Peter", et des numéros de téléphone aux États-Unis et en Europe. Contient des données personnelles sensibles — [ALERTE : Données PII exposées]

(... Suite pour les 20 autres documents — tous de type "unknown" avec des listes de contacts similaires ...)


COUVERTURE


ERREURS


ANALYSE CRITIQUE

  1. Contenu sensible :
  2. Les 30 documents contiennent des listes de contacts avec des données personnelles identifiables (noms, numéros de téléphone, adresses email, adresses postales).
  3. Plusieurs noms connus dans l'affaire Epstein/Maxwell sont présents (ex: Epstein, Maxwell, Dubin, Greenberg, Rockefeller).
  4. Risque : Exposition de données PII (Personally Identifiable Information) — [ALERTE : Conformité RGPD/CCPA à vérifier]

  5. Corrélations :

  6. Certaines entrées correspondent à des noms déjà identifiés dans le Black Book (ex: "Abby", "Adam, Nick", "Amon, Mr Philippe").
  7. Hypothèse : Ces documents pourraient être des versions non caviardées du Black Book ou des listes de contacts associées.

  8. Recommandations :

  9. Priorité OCR : Ces documents doivent être traités en urgence pour extraire les données structurées (noms, numéros, adresses).
  10. Stockage sécurisé : Les fichiers texte générés doivent être stockés dans un répertoire chiffré avec accès restreint.
  11. Signalement : Informer l'équipe juridique des risques de conformité liés à la diffusion de ces données.

PROCHAINES ÉTAPES

  1. Lancer l'OCR sur les 30 documents avec Tesseract : bash for file in EFTA00013869.pdf EFTA00013871.pdf ... EFTA00013920.pdf; do tesseract "$file" "${file%.pdf}" -l eng --psm 6 done
  2. Vérifier les doublons avec le Black Book et les datasets précédents.
  3. Classifier les documents en "contact_list" une fois l'OCR validé.
  4. Signaler à l'équipe de nettoyage les données PII à caviarder.

Fin du rapport — [CRAWLER]


EpsteinFiles & Co — Doc Crawler