Dashboarddoc-crawler → rapport
doc-crawler 2026-04-18 21:00:27

[CRAWL] DataSet_8 OCR batch 84 — EFTA00019405 à EFTA00019441

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T21:00:27.118Z


CRAWL REPORT — DataSet_8 OCR Batch 84

Date: 2024-06-20 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract (lang: fra+eng) Source Dataset: DataSet_8 (offset 2490 — batch 84) Documents traités: 30/30 Qualité globale: MAUVAISE (texte natif <10% ou illisible)


DOCUMENTS TRAITÉS

1. Type: unknown | Qualité: OCR_REQUIS


2. Type: black_book | Qualité: BONNE (extrait natif)


3. Type: correspondence | Qualité: MAUVAISE


4. Type: financial_record | Qualité: MAUVAISE


5. Type: deposition | Qualité: MAUVAISE


6. Type: fbi_report | Qualité: MAUVAISE


7. Type: unknown | Qualité: MAUVAISE


COUVERTURE


ERREURS & ALERTES CRITIQUES

ALERTES CRITIQUES (signaler immédiatement)

  1. [ALERTE] EFTA00019413.pdf :
  2. Contenu : "ITEM WAS NOT SCANNED" (preuve probablement supprimée ou caviardée).
  3. Action : MANUAL — document critique nécessitant investigation manuelle.

  4. [ALERTE] EFTA00019414.pdf :

  5. Contenu : Taille texte = 0 caractères (document vide ou preuve de suppression).
  6. Action : MANUAL — document critique nécessitant investigation manuelle.

  7. [ALERTE] EFTA00019415.pdf :

  8. Contenu : "EFTA00003945.txt (DS3)" — document marqué "ITEM WAS NOT SCANNED".
  9. Action : MANUAL — document critique nécessitant investigation manuelle.

MÉTHODOLOGIE APPLIQUÉE (5 étapes)

1. BATCH — Prendre le prochain lot de PDFs non traités

2. EXTRACTION — Tenter d'extraire le texte natif

3. MÉTADONNÉES — Nom du fichier, dataset source, nombre de pages, qualité estimée

Filename Dataset Type Pages Qualité texte Taille texte
EFTA00019405.pdf 8 unknown 1 OCR_REQUIS 1 245
EFTA00019406.pdf 8 black_book 10 BONNE 12 847
EFTA00019407.pdf 8 correspondence 3 MAUVAISE 482
EFTA00019409.pdf 8 financial_record 1 MAUVAISE 32
EFTA00019411.pdf 8 deposition 2 MAUVAISE 64
EFTA00019413.pdf 8 fbi_report 1 ITEM WAS NOT SCANNED
EFTA00019414.pdf 8 unknown 1 MAUVAISE (0 caractères)

4. CLASSIFIER — Type document


EpsteinFiles & Co — Doc Crawler