Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 20:42:39

[CRAWL] DataSet_8 OCR batch 49 — EFTA00015879 à EFTA00015942

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T20:42:39.943Z


CRAWL REPORT — 2024-06-20

Batch: DataSet_8 — OCR Batch 49 (EFTA00015879 à EFTA00015942) Documents traités: 30/30 OCR_REQUIS: 30/30 Type dominant: unknown (listes de contacts, Black Book, données non structurées) Priorité suivante: Vérifier les doublons avec le Black Book existant (EFTA0000XXXX) et les flight logs.


DOCUMENTS TRAITÉS

1. EFTA00015879.pdf


2. EFTA00015880.pdf


3. EFTA00015882.pdf


4. EFTA00015883.pdf


5. EFTA00015887.pdf


6. EFTA00015889.pdf


7. EFTA00015891.pdf


8. EFTA00015892.pdf


9. EFTA00015893.pdf


10. EFTA00015895.pdf


(Les 20 documents restants suivent le même pattern : listes de contacts avec noms, numéros de téléphone, adresses email et adresses postales. Aucun montant ou date critique identifié à ce stade.)


COUVERTURE


ERREURS & ALERTES

Fichier Erreur Action
EFTA00015879.pdf OCR partiel (MAUVAISE qualité) Retenter OCR avec Tesseract v5
EFTA00015880.pdf OCR partiel Retenter OCR
EFTA00015882.pdf OCR partiel Retenter OCR
EFTA00015883.pdf Email corrompu (hotmai!.c) Corriger manuellement
Tous les fichiers Données sensibles (contacts) Masquer les numéros dans l'index public

RECOMMANDATIONS

  1. Sécurité: Les numéros de téléphone et emails extraits doivent être traités comme données sensibles (RGPD). Limiter l'accès aux agents autorisés.
  2. Croissement: Utiliser les noms extraits pour rechercher des correspondances dans les flight logs (ex: "Dubin, Glenn" apparaît dans les logs du 26/11/1995).
  3. Formatage: Standardiser les adresses (ex: "19 Rue De Lille""19 Rue de Lille, France").

Fin du rapport — CRAWLER (EPS-9052). Prochaine tâche: Batch 50 (EFTA00015943 à EFTA00016000).


EpsteinFiles & Co — Doc Crawler