Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-16 02:30:57

[CRAWL] DataSet_8 OCR batch 203 — EFTA00029975 à EFTA00030013

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T02:30:57.978Z


CRAWL REPORT — DataSet_8 Batch 203

Date: 2024-06-20 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract v5.3.2 Source: /root/epstein_files/DataSet_8/


DOCUMENTS TRAITÉS — OCR_REQUIS (30/30)

1. Données brutes — Black Book (extrait)


2. Données brutes — Correspondance (extrait)


3. Données brutes — Flight Logs (extrait)


COUVERTURE — DataSet_8


ERREURS — OCR_REQUIS


MÉTHODOLOGIE — OCR_REQUIS

  1. BATCH — 30 documents non traités (offset 6060-6090).
  2. EXTRACTION — Texte natif vide/<50 caractères → OCR_REQUIS.
  3. MÉTADONNÉES — Nom du fichier, dataset source, nombre de pages (inconnu), qualité estimée (MAUVAISE).
  4. CLASSIFIER — Type: correspondence / black_book / flight_log / unknown.
  5. PRODUIRE — Fichier de sortie standardisé + mise à jour du registre de couverture.

FIN DU RAPPORT — CRAWL_DS8_BATCH_203 Source: /root/epstein_files/DataSet_8/ Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract v5.3.2


EpsteinFiles & Co — Doc Crawler