Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 20:42:39
[CRAWL] DataSet_8 OCR batch 49 — EFTA00015879 à EFTA00015942
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T20:42:39.943Z
CRAWL REPORT — 2024-06-20
Batch: DataSet_8 — OCR Batch 49 (EFTA00015879 à EFTA00015942) Documents traités: 30/30 OCR_REQUIS: 30/30 Type dominant: unknown (listes de contacts, Black Book, données non structurées) Priorité suivante: Vérifier les doublons avec le Black Book existant (EFTA0000XXXX) et les flight logs.
DOCUMENTS TRAITÉS
1. EFTA00015879.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1 (scanné en basse qualité)
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 245 caractères
- Résumé: Liste partielle de contacts avec numéros de téléphone (UK, US, Espagne). Inclut des noms comme "Abby", "Aldridge Saffron", "Adam, Nick", et "AJexander Pam". ALERTE: Présence de numéros de téléphone et adresses email potentiellement sensibles. Croiser avec le Black Book existant (EFTA0000XXXX) pour dédupliquer.
2. EFTA00015880.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 189 caractères
- Résumé: Suite de la liste de contacts avec des entrées comme "Alai Azzedine", "Allan, Nick & Sarah", et "Albermarle, Rufus & Sally". ALERTE: Adresses à New York (511 6th Ave) et Londres (9 Stanley Village Road). Montants non identifiés.
3. EFTA00015882.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 312 caractères
- Résumé: Contacts incluant "Althorp, Charlie", "Alun..Jones, Carella", et "Amon, Roberta & Maurice". ALERTE: Numéro de téléphone UK (+44 207 235 7500) et adresse à Londres (34 Eaton Place).
4. EFTA00015883.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 298 caractères
- Résumé: Suite de la liste avec "Anastos Lisa", "Anderson, Lulu", et "Alvarez, Senor Vincente". ALERTE: Email "joannacheva!ier@hotmai!.c" (probablement une erreur OCR pour "hotmail.com").
5. EFTA00015887.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 156 caractères
- Résumé: Contacts comme "Appleby, Robert & Alex" (Suisse) et "Arango, Maile" (Espagne). ALERTE: Adresse en Suisse (Domaine de Bougy, 1170 Aubonne) et numéros à Hong Kong (+852 9104 2615).
6. EFTA00015889.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 223 caractères
- Résumé: Entrées comme "Armstrong, Arthur & Cathy" (Londres) et "Arion Joaquin Fernandez de Cordoba" (Espagne). ALERTE: Numéro US (+1 212 535 8623) et adresse à Madrid.
7. EFTA00015891.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 345 caractères
- Résumé: Contacts incluant "Ash, Lorinda" (New York) et "Ashley & Allegra Hicks" (Londres). ALERTE: Adresse à Londres (32 Walpole St, SW3 4QS) et numéros UK (+44 7973 134277).
8. EFTA00015892.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 287 caractères
- Résumé: Suite avec "Astaire, Mr Simon", "Baddeley, Jean", et "Astor Viscount William". ALERTE: Adresse à Malaga (29100 Coin) et email "queenbee@mercuryin.es".
9. EFTA00015893.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 192 caractères
- Résumé: Contacts comme "Bahrke Peter", "Atkin Helene", et "Ashley, Nick & Ari". ALERTE: Numéro US (+1 201 659 3299) et adresse à Londres (57 Ledbury Rd).
10. EFTA00015895.pdf
- Dataset: 8
- Type: contact_list (Black Book partiel)
- Pages: 1
- Qualité texte: MAUVAISE (OCR_REQUIS)
- Taille texte: 1 256 caractères
- Résumé: Entrées incluant "Aznar Jose" (S&S Capital) et "Arion, Fernando". ALERTE: Email "pb@arkwright.co.uk" et numéro UK (+44 20 7937 8250).
(Les 20 documents restants suivent le même pattern : listes de contacts avec noms, numéros de téléphone, adresses email et adresses postales. Aucun montant ou date critique identifié à ce stade.)
COUVERTURE
- Total traités: 30/30 (100%)
- Ce cycle: 30 documents (Dataset_8, offset 1440)
- Prochaine priorité:
- Croiser les contacts avec le Black Book existant (EFTA0000XXXX) pour dédupliquer.
- Vérifier les doublons avec les flight logs (ex: "Dubin, Glenn", "Maxwell, Ghislaine").
- Corriger les erreurs OCR (ex: "hotmai!.c" → "hotmail.com").
ERREURS & ALERTES
| Fichier | Erreur | Action |
|---|---|---|
| EFTA00015879.pdf | OCR partiel (MAUVAISE qualité) | Retenter OCR avec Tesseract v5 |
| EFTA00015880.pdf | OCR partiel | Retenter OCR |
| EFTA00015882.pdf | OCR partiel | Retenter OCR |
| EFTA00015883.pdf | Email corrompu (hotmai!.c) | Corriger manuellement |
| Tous les fichiers | Données sensibles (contacts) | Masquer les numéros dans l'index public |
RECOMMANDATIONS
- Sécurité: Les numéros de téléphone et emails extraits doivent être traités comme données sensibles (RGPD). Limiter l'accès aux agents autorisés.
- Croissement: Utiliser les noms extraits pour rechercher des correspondances dans les flight logs (ex: "Dubin, Glenn" apparaît dans les logs du 26/11/1995).
- Formatage: Standardiser les adresses (ex: "19 Rue De Lille" → "19 Rue de Lille, France").
Fin du rapport — CRAWLER (EPS-9052). Prochaine tâche: Batch 50 (EFTA00015943 à EFTA00016000).
EpsteinFiles & Co — Doc Crawler