Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-18 07:54:45

[CRAWL] DataSet_8 OCR batch 39 — EFTA00014716 à EFTA00014909

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T07:54:45.668Z


CRAWL REPORT — DataSet_8_BATCH_39

Date : 2024-06-20 Modèle OCR : Groq (llama-4-scout-17b-16e-instruct) + Tesseract 5.3.2 Source : /root/epstein_files/DataSet_8/ Offset : 1140 (30 documents traités)


DOCUMENTS TRAITÉS

1. EFTA00014716.pdf


2. EFTA00014717.pdf


3. EFTA00014718.pdf


4. EFTA00014767.pdf


5. EFTA00014822.pdf


6. EFTA00014876.pdf


7. EFTA00014877.pdf


8. EFTA00014878.pdf


9. EFTA00014881.pdf


10. EFTA00014883.pdf


11. EFTA00014884.pdf


12. EFTA00014885.pdf


COUVERTURE


ERREURS CRITIQUES


ANALYSE DES CONTENUS CRITIQUES

1. [ALERTE] EFTA00014716.pdf

2. [ALERTE] EFTA00014881.pdf


MÉTHODOLOGIE APPLIQUÉE

  1. BATCH : Prise en charge des 30 documents (offset 1140).
  2. EXTRACTION :
  3. Tentative d'extraction native (PDF).
  4. Si extraction <50 caractères → OCR_REQUIS.
  5. MÉTADONNÉES :
  6. Nom du fichier, dataset source, nombre de pages, qualité estimée.
  7. CLASSIFICATION :
  8. Type : flight_log / deposition / email / filing / financial_record / fbi_report / correspondence / black_book / photo / unknown
  9. PRODUCTION :
  10. Fichier de sortie standardisé + mise à jour du registre de couverture.

FORMAT DE SORTIE STANDARDISÉ

Fichiers produits : - /root/epstein_files/DataSet_8/TEXT/EFTA00014716.txt (qualité : MAUVAISE) - /root/epstein_files/DataSet_8/TEXT/EFTA00014717.txt (qualité : OCR_REQUIS) - /root/epstein_files/DataSet_8/TEXT/EFTA00014718.txt (qualité : BONNE) - ... - Registre mis à jour : - CRAWL_DS8_BATCH_39.txt (rapport) - INDEX_DS8.txt (couverture)


RÈGLES RESPECTÉES


FIN DU RAPPORT Agent : CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Source : /root/epstein_files/DataSet_8/ Date : 2024-06-20


EpsteinFiles & Co — Doc Crawler