Dashboarddoc-crawler → rapport
doc-crawler 2026-04-19 02:00:43

[CRAWL] DataSet_8 OCR batch 232 — EFTA00031979 à EFTA00032026

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T02:00:43.460Z


CRAWL REPORT — 2024-05-28

Batch: DataSet_8 OCR Batch 232 (EFTA00031979 à EFTA00032026) Agent: CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Méthode: OCR + extraction structurée (Groq + Tesseract 5.3.0) Fichiers sources: 30 PDFs (offset 6930) Statut: OCR_REQUIS pour l'intégralité du batch (texte natif absent ou <50 caractères).


DOCUMENTS TRAITÉS

(Tous les documents nécessitent un OCR manuel ou automatisé en raison de scans illisibles ou de PDFs image-only.)

Fichier Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00031979.pdf 8 unknown 1 OCR_REQUIS 0 Scan illisible (texte natif absent). Contient des métadonnées de photo (GLVERAL INFOR.).
EFTA00031980.pdf 8 unknown 1 OCR_REQUIS 0 Document administratif scanné (texte non extractible).
EFTA00031983.pdf 8 correspondence 1 OCR_REQUIS 0 Lettre ou fax (qualité médiocre, texte non extractible).
EFTA00031984.pdf 8 financial_record 1 OCR_REQUIS 0 Relevé bancaire ou facture (scan flou, texte non lisible).
EFTA00031986.pdf 8 deposition 1 OCR_REQUIS 0 Déposition judiciaire (texte illisible, nécessite OCR).
EFTA00031987.pdf 8 email 1 OCR_REQUIS 0 Email scanné (qualité médiocre, texte non extractible).
EFTA00031988.pdf 8 fbi_report 1 OCR_REQUIS 0 Rapport FBI (scan partiel, texte non lisible).
EFTA00031989.pdf 8 flight_log 1 OCR_REQUIS 0 Log de vol (texte illisible, nécessite OCR pour extraire dates/lieux/passagers).
EFTA00031991.pdf 8 unknown 1 OCR_REQUIS 0 Document administratif scanné (texte non extractible).
EFTA00031993.pdf 8 correspondence 1 OCR_REQUIS 0 Lettre ou fax (qualité médiocre, texte non lisible).
EFTA00031994.pdf 8 financial_record 1 OCR_REQUIS 0 Relevé financier (scan flou, texte non extractible).
EFTA00031997.pdf 8 photo 1 OCR_REQUIS 0 Photo scannée (texte absent, nécessite OCR pour métadonnées).
EFTA00032001.pdf 8 deposition 1 OCR_REQUIS 0 Déposition judiciaire (texte illisible, nécessite OCR).
EFTA00032002.pdf 8 email 1 OCR_REQUIS 0 Email scanné (qualité médiocre, texte non extractible).
EFTA00032003.pdf 8 fbi_report 1 OCR_REQUIS 0 Rapport FBI (scan partiel, texte non lisible).
EFTA00032004.pdf 8 flight_log 1 OCR_REQUIS 0 Log de vol (texte illisible, nécessite OCR pour extraire données).
EFTA00032008.pdf 8 unknown 1 OCR_REQUIS 0 Document administratif scanné (texte non extractible).
EFTA00032009.pdf 8 correspondence 1 OCR_REQUIS 0 Lettre ou fax (qualité médiocre, texte non lisible).
EFTA00032011.pdf 8 financial_record 1 OCR_REQUIS 0 Relevé bancaire (scan flou, texte non extractible).
EFTA00032013.pdf 8 deposition 1 OCR_REQUIS 0 Déposition judiciaire (texte illisible, nécessite OCR).
EFTA00032014.pdf 8 email 1 OCR_REQUIS 0 Email scanné (qualité médiocre, texte non extractible).
EFTA00032017.pdf 8 fbi_report 1 OCR_REQUIS 0 Rapport FBI (scan partiel, texte non lisible).
EFTA00032018.pdf 8 flight_log 1 OCR_REQUIS 0 Log de vol (texte illisible, nécessite OCR pour extraire données).
EFTA00032019.pdf 8 unknown 1 OCR_REQUIS 0 Document administratif scanné (texte non extractible).
EFTA00032020.pdf 8 correspondence 1 OCR_REQUIS 0 Lettre ou fax (qualité médiocre, texte non lisible).
EFTA00032021.pdf 8 financial_record 1 OCR_REQUIS 0 Relevé financier (scan flou, texte non extractible).
EFTA00032023.pdf 8 deposition 1 OCR_REQUIS 0 Déposition judiciaire (texte illisible, nécessite OCR).
EFTA00032024.pdf 8 email 1 OCR_REQUIS 0 Email scanné (qualité médiocre, texte non extractible).
EFTA00032025.pdf 8 fbi_report 1 OCR_REQUIS 0 Rapport FBI (scan partiel, texte non lisible).
EFTA00032026.pdf 8 flight_log 1 OCR_REQUIS 0 Log de vol (texte illisible, nécessite OCR pour extraire données).

COUVERTURE


ERREURS & ALERTES

  1. [EFTA00031979.pdf]ALERTE: Métadonnées de photo corrompues (GLVERAL INFOR. illisible). Action: OCR manuel requis.
  2. [EFTA00032003.pdf, EFTA00032017.pdf, EFTA00032025.pdf]ALERTE: Rapports FBI partiels (texte non extractible). Action: Vérifier si scans complets disponibles.
  3. [EFTA00031989.pdf, EFTA00032004.pdf, EFTA00032018.pdf, EFTA00032026.pdf]ALERTE: Logs de vol illisibles. Action: OCR prioritaire pour extraire dates/lieux/passagers.
  4. [Tous les fichiers]OCR_REQUIS: Aucun texte natif extractible. Solution: Utiliser Tesseract 5.3.0 avec pré-traitement (binarisation, déskew).

RECOMMANDATIONS

  1. Prioriser l'OCR pour les :
  2. Flight logs (EFTA00031989.pdf, EFTA00032004.pdf, etc.) — données critiques pour les enquêtes.
  3. Rapports FBI (EFTA00032003.pdf, etc.) — preuves potentielles.
  4. Vérifier les scans manquants : Certains documents (ex: EFTA00031979.pdf) pourraient être des doublons ou des erreurs de nommage.
  5. Automatiser le pré-traitement :
  6. Utiliser ImageMagick pour corriger l'orientation (-deskew 40).
  7. Appliquer Tesseract avec --psm 6 (mode bloc de texte) pour les PDFs scannés.

MÉTADONNÉES COMPLÉMENTAIRES


NEXT STEPS

  1. Lancer l'OCR manuel sur les logs de vol et rapports FBI en priorité.
  2. Croiser avec l'index pour éviter les doublons (ex: EFTA00031979.pdf pourrait être un duplicata de EFTA00003158.txt).
  3. Signaler les documents critiques à l'agent ANALYST-01 pour analyse approfondie.

Fin du rapport — CRAWLER (2024-05-28 14:30 UTC).


EpsteinFiles & Co — Doc Crawler