Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 11:30:18
[CRAWL] DataSet_8 OCR batch 148 — EFTA00025136 à EFTA00025188
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T11:30:18.012Z
CRAWL REPORT — 2024-05-30
Batch: DataSet_8 — OCR Batch 148 (EFTA00025136 à EFTA00025188) Total documents traités : 30/30 OCR appliqué : 30 documents (extraction native insuffisante ou absente)
📄 DOCUMENTS TRAITÉS
1. EFTA00025136.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1
- Qualité texte : OCR_REQUIS (extraction native vide)
- Taille texte : 12 450 caractères
- Résumé : Contient une liste de contacts internationaux avec noms, numéros de téléphone, adresses e-mail et adresses postales. Plusieurs entrées mentionnent des individus liés à des réseaux financiers ou sociaux (ex: Aldridge Saffron, Abousleiman Joanna, Adam Nick). → [ALERTE] Présence de numéros de téléphone et adresses e-mail potentiellement sensibles.
2. EFTA00025137.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 11 870 caractères
- Résumé : Liste similaire de contacts avec détails financiers (ex: Allan Paul avec adresse à Seattle et numéros US/UK). Plusieurs entrées incluent des codes pays (+33 pour la France, +44 pour le Royaume-Uni). → [ALERTE] Données personnelles et coordonnées géographiques sensibles.
3. EFTA00025138.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 13 210 caractères
- Résumé : Contient des noms comme Alai Azzedine, Albermarle Rufus & Sally, avec adresses à Londres, New York et Hong Kong. Plusieurs entrées incluent des montants financiers (ex: $1,212,465.9867). → [ALERTE] Montants financiers et adresses précises (ex: 511 6th Ave, New York).
4. EFTA00025140.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 10 980 caractères
- Résumé : Liste de contacts avec des noms comme Althorp Charlie, Alun Jones Carella, et des adresses à Londres (ex: 34 Eaton Place). Plusieurs entrées incluent des numéros de téléphone UK (+44). → [ALERTE] Données personnelles et localisation géographique.
5. EFTA00025141.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 12 120 caractères
- Résumé : Contient des noms comme Amon Roberta & Maurice, Anastos Lisa, avec adresses à New York et Londres. Plusieurs entrées incluent des numéros de téléphone US (+1 212) et UK (+44 20). → [ALERTE] Données personnelles et coordonnées internationales.
6. EFTA00025142.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 11 560 caractères
- Résumé : Liste de contacts avec des noms comme Anderson Lulu, Alvarez Senor Vincente, et des adresses en Espagne (+34) et France (+33). → [ALERTE] Données personnelles et localisation internationale.
7. EFTA00025144.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 13 050 caractères
- Résumé : Contient des noms comme Appleby Robert & Alex, Arango Maile, avec adresses à Londres, New York et Suisse. Plusieurs entrées incluent des numéros de téléphone internationaux. → [ALERTE] Données personnelles et coordonnées géographiques.
8. EFTA00025145.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 12 780 caractères
- Résumé : Liste de contacts avec des noms comme Armstrong Arthur & Cathy, Arion Joaquin Fernandez de Cordoba, et des adresses à Londres et Madrid. → [ALERTE] Données personnelles et localisation géographique.
(Les documents EFTA00025146 à EFTA00025188 suivent le même pattern : listes de contacts avec noms, numéros de téléphone, adresses e-mail et adresses postales. Tous sont classés comme black_book avec extraction OCR requise.)
📊 COUVERTURE
- Total traités : 30/30 documents (100%)
- Ce cycle : 30 documents
- Prochaine priorité : DataSet_8 — Batch 149 (EFTA00025189 à EFTA00025219)
⚠️ ERREURS & ALERTES
- Aucune erreur critique signalée.
- Tous les documents nécessitaient l'OCR (extraction native insuffisante).
- Contenu sensible identifié dans tous les black_book :
- Noms, numéros de téléphone, adresses e-mail et postales.
- Coordonnées géographiques internationales (US, UK, France, Espagne, Suisse, etc.).
- Recommandation : Vérification manuelle pour caviardage avant diffusion.
🔍 FICHIERS GÉNÉRÉS
- EFTA00025136.txt à EFTA00025188.txt (30 fichiers texte standardisés).
- Métadonnées : Dataset 8, Type black_book, OCR_REQUIS, Taille variable (10 000–13 500 caractères).
Fin du rapport — CRAWLER/AGENT 15 Prochaine tâche : DataSet_8 — Batch 149.
EpsteinFiles & Co — Doc Crawler