Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 18:54:19
[CRAWL] DataSet_8 OCR batch 350 — EFTA00038985 à EFTA00039023
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T18:54:19.668Z
CRAWL REPORT — 2024-06-25
DOCUMENTS TRAITÉS
1. EFTA00038985.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible, formatage chaotique)
- Taille texte : ~1 200 caractères
- Résumé : Contient une liste partielle de contacts avec numéros de téléphone internationaux (Royaume-Uni, Espagne, France, etc.). Les noms sont partiellement corrompus (ex: "Abby", "Aldridge Saffron", "Abousleiman, Joanna"). Aucun email valide détecté. → [ALERTE] Présence de données personnelles sensibles (numéros de téléphone, adresses). À caviarder avant diffusion.
2. EFTA00038986.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible, caractères spéciaux)
- Taille texte : ~950 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Adam, Nick", "AJexander Pam"). Adresses partiellement lisibles (ex: "19 Rue De Lille", "Flat4 83 Duke St"). Format similaire à EFTA00038985. → [ALERTE] Données personnelles sensibles. À caviarder.
3. EFTA00038989.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte partiellement lisible)
- Taille texte : ~1 500 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Alai Azzedine", "Allan Paul"). Adresses internationales (Espagne, France, Royaume-Uni). Aucun email valide. → [ALERTE] Données personnelles sensibles.
4. EFTA00038992.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~800 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Albermarle, Rufus & Sally"). Adresses partiellement lisibles (ex: "511 6th Ave, New York"). → [ALERTE] Données personnelles sensibles.
5. EFTA00038994.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~700 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Althorp, Charlie"). Adresses partiellement lisibles (ex: "34 Eaton Place, London"). → [ALERTE] Données personnelles sensibles.
6. EFTA00038995.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~650 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Alun Jones, Jeremy & Deborah"). Adresses partiellement lisibles (ex: "Old Park, Fishbourne"). → [ALERTE] Données personnelles sensibles.
7. EFTA00038997.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~900 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Amon, Roberta & Maurice"). Adresses partiellement lisibles (ex: "4 East 72nd Street, New York"). → [ALERTE] Données personnelles sensibles.
8. EFTA00039001.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~1 100 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Anastos, Lisa"). Adresses partiellement lisibles (ex: "200 E 72nd, New York"). → [ALERTE] Données personnelles sensibles.
9. EFTA00039003.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~850 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Anderson, Lulu"). Adresses partiellement lisibles (ex: "Vincente Alvarez"). → [ALERTE] Données personnelles sensibles.
10. EFTA00039004.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~1 000 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Amon, Mr Philippe"). Adresses partiellement lisibles (ex: "16 Grafton Square, London"). → [ALERTE] Données personnelles sensibles.
11. EFTA00039008.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~950 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Appleby, Robert & Alex"). Adresses partiellement lisibles (ex: "Domaine de Bougy, Switzerland"). → [ALERTE] Données personnelles sensibles.
12. EFTA00039011.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~1 200 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Arango, Maile"). Adresses partiellement lisibles (ex: "Espaller #10, Madrid"). → [ALERTE] Données personnelles sensibles.
13. EFTA00039014.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~1 050 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Armstrong, Arthur & Cathy"). Adresses partiellement lisibles (ex: "15 Cadogan Square, London"). → [ALERTE] Données personnelles sensibles.
14. EFTA00039017.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~800 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Arion, Joaquin Fernandez de Cordoba"). Adresses partiellement lisibles (ex: "Castillo de Maipicas, Spain"). → [ALERTE] Données personnelles sensibles.
15. EFTA00039019.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~900 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Ash, Lorinda"). Adresses partiellement lisibles (ex: "High Park Ave, New York"). → [ALERTE] Données personnelles sensibles.
16. EFTA00039021.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~1 100 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Ashley & Allegra Hicks"). Adresses partiellement lisibles (ex: "32 Walpole St, London"). → [ALERTE] Données personnelles sensibles.
17. EFTA00039022.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~1 000 caractères
- Résumé : Contient des noms de contacts avec numéros de téléphone (ex: "Astaire, Mr Simon"). Adresses partiellement lisibles (ex: "60 Cathcart Road, London"). → [ALERTE] Données personnelles sensibles.
18. EFTA00039023.pdf
- Dataset : DS8
- Type : black_book
- Pages : 1 (texte brut)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : ~850 caractères
- Résumé : Liste de contacts avec noms et numéros de téléphone (ex: "Baddeley, Jean"). Adresses partiellement lisibles (ex: "Astor Viscount William"). → [ALERTE] Données personnelles sensibles.
COUVERTURE
- Total traités : 18 / ~14 600
- Ce cycle : 18 documents (DataSet_8, offset 10470-10488)
- Prochaine priorité : DataSet_8, offset 10489-10506 (batch 351)
ERREURS
- EFTA00038985.pdf à EFTA00039023.pdf : Tous marqués OCR_REQUIS en raison de la qualité médiocre du texte extrait. Nécessitent une relecture manuelle ou un OCR dédié (ex: Tesseract avec modèle pour texte dégradé).
OBSERVATIONS CRITIQUES
- Données personnelles : Tous les documents de ce batch contiennent des noms, adresses et numéros de téléphone (format international). Caviardage obligatoire avant toute diffusion.
- Formatage : Les fichiers semblent être des scans ou des exports de bases de données (ex: "Black Book"). Le texte brut est illisible sans OCR avancé.
- Contexte : Ces documents correspondent à un carnet d'adresses (type "Black Book"), potentiellement lié à des réseaux d'influence ou financiers. À croiser avec d'autres datasets (ex: correspondances, rapports FBI).
RECOMMANDATIONS
- Priorité OCR : Utiliser un outil comme Adobe Acrobat Pro ou ABBYY FineReader pour améliorer la lisibilité des textes.
- Caviardage : Masquer systématiquement les données personnelles avant indexation.
- Croiser les sources : Vérifier si ces contacts apparaissent dans d'autres documents (ex: emails, rapports financiers).
- Archivage : Conserver une copie brute (PDF) et une version caviardée (
EpsteinFiles & Co — Doc Crawler