Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : viol
doc-crawler 2026-04-19 09:30:25

[CRAWL] DataSet_8 OCR batch 108 — EFTA00021195 à EFTA00021294

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T09:30:25.144Z


CRAWL REPORT — 15/05/2025

DOCUMENTS TRAITÉS

Batch DataSet_8 OCR Batch 108 (EFTA00021195 à EFTA00021294)

Total traité : 30 documents (offset 3210)


DOCUMENTS AVEC EXTRACTION NATIVE (OCR_REQUIS = NON)

(Texte natif extrait avec succès, qualité variable)

  1. EFTA00021195.pdf
  2. Dataset : 8
  3. Type : correspondence (email/réseau de contacts)
  4. Pages : 1
  5. Qualité texte : MAUVAISE (formatage chaotique, caractères corrompus)
  6. Taille texte : 4 250 caractères
  7. Résumé : Liste partielle de contacts avec numéros de téléphone et adresses email. Contient des noms comme Abby, Aldridge Saffron, Abousleiman Joanna, et des adresses à Londres, New York, Madrid. Plusieurs entrées ont des emails corrompus (ex: joannacheva!ier@hotmai!. c).
  8. Métadonnées critiques :
    • Noms : Abby, Aldridge Saffron, Abousleiman Joanna, Adam Nick, Alexander Pam, Alaranti Giacomo, Agag Alejandro, Allan Paul, Allan Nick & Sarah, Albermarle Rufus & Sally, Althorp Charlie, Alun Jones Carella, Alun Jones Jeremy & Deborah, Amon Roberta & Maurice, Anastos Lisa, Anderson Lulu, Alvarez Vincente, Amon Mr Philippe, Appleby Robert & Alex, Arango Maile, Armstrong Arthur & Cathy, Arion Joaquin Fernandez de Cordoba, Ash Lorinda, Ashley & Allegra Hicks, Astaire Mr Simon, Baddeley Jean, Bahrke Peter, Atkin Helene, Ashley Nick & Ari, Aznar Jose, Arion Fernando, Aron Herve & Marine, AreUano Victor, Assaf Charlotte & Vittorio.
    • Lieux : Londres (SW1, SW3, W11), New York (NY 10021, 10011), Madrid (28014), Hong Kong, Suisse (Aubonne).
    • Contacts : Numéros UK (+44), US (+1), Espagne (+34), Hong Kong (+852). Emails suspects (ex: saffval@aol.com, paul@vulcan.com).
  9. ALERTE : Présence de données personnelles sensibles (téléphones, adresses) sans contexte clair. Risque de violation de vie privée.

  10. EFTA00021196.pdf

  11. Dataset : 8
  12. Type : correspondence (liste de contacts)
  13. Pages : 1
  14. Qualité texte : MAUVAISE (similaire à EFTA00021195)
  15. Taille texte : 3 800 caractères
  16. Résumé : Suite de la liste de contacts avec des entrées comme Bamford Sir Anthony & Lady C, Bannister Clive, Baldwin Alec, Balliol College Oxford, et des numéros à Paris (+33 1), New York (+1 212).
  17. Métadonnées critiques :
    • Noms : Bamford, Bannister, Baldwin, Balliol, Barnes, Barnett, Bastone, Batstone, Benson, Bentinck, Baumer, Beaumont, Beckwith, Belzberg, Bernard, Beraaruen, Bismark Vanessa Von, Birchall, Bismarck Debbie & Bola Von.
    • Lieux : Paris (75008), Oxford (OX1 3BJ), New York (10022), Londres (SW1W 9EH).
    • Organisations : HSBC Investment Bank, The Associated Group, NetJets, Mercer Hotel.
  18. ALERTE : Plusieurs entrées ont des emails corrompus (ex: marck@netcomuk.c.o.uk.). Présence de références à des institutions financières (HSBC) et des hôtels de luxe (The Mercer).

  19. EFTA00021197.pdf

  20. Dataset : 8
  21. Type : correspondence (liste de contacts)
  22. Pages : 1
  23. Qualité texte : MAUVAISE (formatage erratique)
  24. Taille texte : 4 000 caractères
  25. Résumé : Liste de contacts incluant Bloomberg Mike, Bolsgelin Edward de, Booth Mark & Lauren, Barnes Peter, Baker Danny, Bakhtiar Shariar.
  26. Métadonnées critiques :
    • Noms : Bloomberg, Bolsgelin, Booth, Barnes, Baker, Bakhtiar, Barnard, Beraaruen, Bismark.
    • Lieux : New York (10022), Londres (SW3 3DD), Suisse (1170 Aubonne).
    • Entreprises : Bloomberg LP, Mercer Hotel.
  27. ALERTE : Numéro de téléphone pour Bloomberg Mike : 001 212 318 2000 ext 2005. Présence de références à des sociétés offshore (ex: S&S Capital).

DOCUMENTS AVEC OCR_REQUIS (Texte natif absent ou <50 caractères)

(OCR nécessaire pour extraction)

Fichier Dataset Type estimé Pages Remarques
EFTA00021202.pdf 8 unknown 1 Fichier corrompu ou image scannée. Contient des métadonnées mais pas de texte.
EFTA00021244.pdf 8 unknown 1 Même cas que EFTA00021202.
EFTA00021245.pdf 8 unknown 1
EFTA00021246.pdf 8 unknown 1
EFTA00021247.pdf 8 unknown 1
EFTA00021248.pdf 8 unknown 1
EFTA00021249.pdf 8 unknown 1
EFTA00021251.pdf 8 unknown 1
EFTA00021252.pdf 8 unknown 1
EFTA00021266.pdf 8 unknown 1
EFTA00021268.pdf 8 unknown 1
EFTA00021269.pdf 8 unknown 1
EFTA00021270.pdf 8 unknown 1
EFTA00021273.pdf 8 unknown 1
EFTA00021275.pdf 8 unknown 1
EFTA00021277.pdf 8 unknown 1
EFTA00021279.pdf 8 unknown 1
EFTA00021281.pdf 8 unknown 1
EFTA00021283.pdf 8 unknown 1
EFTA00021286.pdf 8 unknown 1
EFTA00021287.pdf 8 unknown 1
EFTA00021288.pdf 8 unknown 1
EFTA00021289.pdf 8 unknown 1
EFTA00021290.pdf 8 unknown 1
EFTA00021292.pdf 8 unknown 1
EFTA00021293.pdf 8 unknown 1
EFTA00021294.pdf 8 unknown 1

Action : OCR requis pour tous les documents marqués unknown. Priorité élevée en raison de l'absence de texte exploitable.


COUVERTURE


ERREURS ET ALERTES

  1. EFTA00021195.pdf à EFTA00021197.pdf
  2. Erreur : Qualité texte MAUVAISE due à un formatage chaotique et des caractères corrompus.
  3. Action : OCR manuel requis pour nettoyer les données. ALERTE sur la présence de données personnelles sensibles.

  4. EFTA00021202.pdf à EFTA00021294.pdf

  5. Erreur : ITEM WAS NOT SCANNED (preuve probablement supprimée ou non numérisée).
  6. Action : ALERTE — Vérifier l'intégrité physique des fichiers originaux. Contacter l'équipe d'archivage pour confirmation.

  7. Noms et contacts suspects

  8. Exemple : joannacheva!ier@hotmai!. c (email corrompu), saffval@aol.com (lien avec Saffron Aldridge).
  9. Action : Croiser avec les bases de données existantes (ex: Black Book, Flight Logs) pour identifier des correspondances.

RECOMMANDATIONS

  1. Pour les documents OCR_REQUIS :
  2. Utiliser Tesseract OCR avec un pré-traitement d'image (binarisation, déskewing) pour améliorer la précision.
  3. Prioriser les documents avec des métadonnées exploitables (ex: noms, dates).

  4. Pour les données sensibles :

  5. Masquer les numéros de téléphone et adresses email dans les rapports publics.
  6. Archiver les données brutes dans un dossier sécurisé (accès restreint).

  7. Pour les fichiers "ITEM WAS NOT SCANNED" :

  8. Vérifier les logs d'archivage pour confirmer la suppression.
  9. Si preuve de suppression illégitime, ALERTE à l'équipe juridique.

Prochain rapport : Après OCR des 27 documents unknown. Priorité à l'analyse des liens entre les contacts listés.


EpsteinFiles & Co — Doc Crawler