[CRAWL] DataSet_8 OCR batch 251 — EFTA00033218 à EFTA00033247
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T15:06:35.642Z
CRAWL REPORT — 2024-05-25
Batch: DataSet_8 OCR Batch 251 (EFTA00033218 à EFTA00033247) Documents traités: 30/30 OCR_REQUIS: 30/30 (aucun texte natif détecté) Couverture totale DS8: 7530/10488 (~71.8%)
DOCUMENTS TRAITÉS
1. EFTA00033218.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 12 450 caractères
- Résumé: Liste de contacts internationaux incluant noms, numéros de téléphone et adresses email. Présence de plusieurs personnalités (ex: Abby, Aldridge Saffron, Adam, Nick). ALERTE: Numéros de téléphone et emails non caviardés — exposition de données personnelles sensibles.
2. EFTA00033219.pdf
- Dataset: 8
- Type: black_book
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 11 890 caractères
- Résumé:
Suite de la liste de contacts avec adresses postales (ex: 19 Rue De Lille, 4 7 Idbrooke Rd). Plusieurs entrées incluent des codes pays (00 331, 001) et des emails mal formatés (ex:
joannacheva!ier@hotmai!.c). ALERTE: Données de contact non protégées — risque de fuite d’informations privées.
3. EFTA00033220.pdf
- Dataset: 8
- Type: black_book
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 13 200 caractères
- Résumé:
Liste étendue avec des noms comme Allan Paul, Alai Azzedine, et des adresses à London SW1, New York. Présence de montants financiers (ex:
001 206 355 5777). ALERTE: Données financières et personnelles non masquées.
4. EFTA00033221.pdf
- Dataset: 8
- Type: black_book
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 12 100 caractères
- Résumé: Contacts incluant Althorp, Charlie et Alun Jones, Carella. Adresses à 34 Eaton Place et Old Park. ALERTE: Données de localisation précises non anonymisées.
5. EFTA00033222.pdf
- Dataset: 8
- Type: black_book
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 11 500 caractères
- Résumé:
Liste avec Amon, Roberta & Maurice (adresse: 4 East 72 Street) et Anastos Lisa (numéro:
001 212 446 4761). ALERTE: Numéros de téléphone et adresses complètes exposés.
(Les documents 6 à 30 suivent le même pattern : listes de contacts non caviardées avec noms, téléphones, emails et adresses. Tous marqués OCR_REQUIS.)
COUVERTURE
- Total DS8 traités: 7530/10488 (~71.8%)
- Ce cycle: 30 documents
- Prochaine priorité: Finaliser l’OCR des 10 488 PDFs de DS8 (priorité absolue en raison des données sensibles non protégées).
- Alertes critiques: 30/30 documents contiennent des données personnelles non masquées (noms, téléphones, emails, adresses).
ERREURS
- Aucune erreur technique — tous les PDFs ont été correctement ingérés.
- Aucun doublon détecté dans l’index.
- Aucun document marqué "ITEM WAS NOT SCANNED" dans ce batch.
ANALYSE CRITIQUE
URGENCE: Les Black Books (EFTA00033218 à EFTA00033247) contiennent des données personnelles non protégées (RGPD/CCPA violations potentielles). Recommandation : 1. Masquage immédiat des données sensibles avant indexation finale. 2. Audit complet des autres Black Books pour vérifier la conformité. 3. Signalement aux équipes juridiques pour évaluation des risques.
Source: Données extraites via OCR (modèle: llama-4-scout-17b-16e-instruct).
Fin du rapport — CRAWLER/AGENT 15
EpsteinFiles & Co — Doc Crawler