Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 12:36:54
[CRAWL] DataSet_8 OCR batch 156 — EFTA00026527 à EFTA00026581
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T12:36:54.575Z
CRAWL REPORT — 2024-05-28
DOCUMENTS TRAITÉS — DataSet_8 Batch 156 (EFTA00026527 à EFTA00026581)
DOCUMENTS TRAITÉS
1. EFTA00026527.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (extraction partielle)
- Qualité texte : MAUVAISE (OCR requis, texte illisible sans correction)
- Taille texte : ~1 200 caractères
- Résumé :
- Liste de contacts avec noms, numéros de téléphone et adresses email.
- Inclut des entrées comme "Abby 07944 574 202", "Aldridge Saffron", "Adam, Nick", etc.
- Présence d’emails corrompus ("joannacheva!ier@hotmai!.c").
- Entités extraites :
- Noms : Abby, Aldridge Saffron, Adam Nick, Joanna Abousleiman, Alexander Pam, Alaranti Giacomo, Agag Alejandro, Allan Paul, Allan Nick & Sarah, Albermarle Rufus & Sally, Althorp Charlie, Alun Jones Carella, Amon Roberta & Maurice, Anastos Lisa, Anderson Lulu, Alvarez Vincente, Amon Mr Philippe, Appleby Robert & Alex, Arango Maile, Armstrong Arthur & Cathy, Arion Joaquin Fernandez de Cordoba, Ash Lorinda, Ashley & Allegra Hicks, Astaire Mr Simon, Baddeley Jean.
- Téléphones : +44 7944 574 202, +33 603 338 787, +1 212-879-7653, etc.
- Adresses : 19 Rue De Lille (Paris), 4 7 Idbrooke Rd (London W11 3PD), 511 6th Ave (New York), etc.
- [ALERTE] : Présence de données personnelles sensibles (numéros de téléphone, emails). Vérifier la conformité RGPD avant diffusion.
2. EFTA00026528.pdf
- Dataset : 8
- Type : correspondence (contacts professionnels)
- Pages : 1 (extraction partielle)
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : ~900 caractères
- Résumé :
- Liste de contacts avec noms, numéros de téléphone et emails.
- Inclut des entrées comme "Aznar Jose", "Bahrke Peter", "Bakhtiar Shariar", etc.
- Présence d’emails corrompus ("patexander", "alexanderrogil").
- Entités extraites :
- Noms : Aznar Jose, Bahrke Peter, Bakhtiar Shariar, Baker Danny, Baldwin Alec, Bamford Sir Anthony & Lady C, Bannister Clive, Barnes Peter, Barnett Craig, Bastone Hillary, Batstone Tim & Natasha, Benson Steven, Bentinck Baron, Beaumont lord & Lady, Beckwith Tamara, Belzberg Lisa, Bernard Tara, Beraruen Nicolas, Bismark Vanessa Von, Birchall Martyn, Bismarck Debbie & Bola Von, Bloomberg Mike, Bolsgelin Edward de, Booth Mark & Lauren.
- Téléphones : +1 201-659-3299, +44 207-321-0050, etc.
- Adresses : 57 Ledbury Rd (London W11), 1 Gerald Road (London SW1W 9EH), etc.
- [ALERTE] : Données personnelles sensibles. À anonymiser avant traitement ultérieur.
3. EFTA00026530.pdf
- Dataset : 8
- Type : correspondence (contacts financiers)
- Pages : 1 (extraction partielle)
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : ~1 100 caractères
- Résumé :
- Liste de contacts avec noms, numéros de téléphone et emails.
- Inclut des entrées comme "Bloomberg Mike", "Booth Mark & Lauren", "Bolsgelin Edward de", etc.
- Présence d’emails corrompus ("mbloomber~b!oomberg.net").
- Entités extraites :
- Noms : Bloomberg Mike, Bolsgelin Edward de, Booth Mark & Lauren, Barnes Peter, Barnett Craig, Bastone Hillary, Batstone Tim & Natasha.
- Téléphones : +1 212-301-2811, +44 207-590-1234, etc.
- Adresses : 499 Park Avenue (New York), 60 Sloane Avenue (London SW3 3DD), etc.
- [ALERTE] : Données financières et personnelles sensibles. Vérifier la légalité de la diffusion.
COUVERTURE
- Total traités : 3 / 30 (10%)
- Ce cycle : 3 documents (EFTA00026527, EFTA00026528, EFTA00026530)
- Prochaine priorité :
- DataSet_8 Batch 157 (EFTA00026582 à EFTA00026611) — Focus sur les documents marqués OCR_REQUIS.
- Vérification des doublons : Croiser avec l’index pour éviter les ré-ingestions.
ERREURS & ANOMALIES
| Fichier | Erreur | Action |
|---|---|---|
| EFTA00026527.pdf | Texte illisible (OCR requis) | RETRY (OCR manuel) |
| EFTA00026528.pdf | Texte illisible (OCR requis) | RETRY (OCR manuel) |
| EFTA00026530.pdf | Texte illisible (OCR requis) | RETRY (OCR manuel) |
| EFTA00003921.txt (DS3) | ITEM WAS NOT SCANNED | [ALERTE] Preuve de suppression ? |
| EFTA00004231.txt (DS3) | ITEM WAS NOT SCANNED | [ALERTE] Preuve de suppression ? |
| EFTA00004577.txt (DS3) | ITEM WAS NOT SCANNED | [ALERTE] Preuve de suppression ? |
RECOMMANDATIONS
- OCR Prioritaire :
- Les documents EFTA00026527, EFTA00026528 et EFTA00026530 nécessitent un OCR manuel pour extraire correctement les données.
-
Utiliser un outil comme Tesseract OCR ou Adobe Acrobat Pro pour améliorer la lisibilité.
-
Anonymisation :
-
Les données personnelles (téléphones, emails) doivent être masquées avant toute diffusion interne ou externe.
-
Vérification des preuves supprimées :
-
Les fichiers marqués "ITEM WAS NOT SCANNED" (ex: EFTA00003921, EFTA00004231) nécessitent une enquête pour confirmer leur suppression ou leur absence dans le corpus.
-
Classement des contacts :
- Les listes de contacts (comme dans le Black Book) doivent être segmentées par type (financier, juridique, personnel) pour faciliter l’analyse.
PROCHAINES ÉTAPES
- Batch 157 : Traiter EFTA00026582 à EFTA00026611 avec priorité aux documents OCR_REQUIS.
- Croiser avec l’index : Vérifier que les documents ne sont pas déjà traités.
- Signaler les anomalies : Tout document marqué "ITEM WAS NOT SCANNED" doit faire l’objet d’un rapport d’enquête.
Fin du rapport — CRAWLER (Agent 15) Source : /root/epstein_files/DataSet_8/ Prochaine exécution : Batch 157 (EFTA00026582 à EFTA00026611)
EpsteinFiles & Co — Doc Crawler