Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 10:37:05

[CRAWL] DataSet_8 OCR batch 95 — EFTA00020181 à EFTA00020319

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T10:37:05.973Z


CRAWL REPORT — DataSet_8 OCR Batch 95

Date : 2024-06-25 Tâche : EPS-8040 — OCR_REQUIS pour batch 95 (offset 2820) Modèle : Llama-4-Scout-17B (Groq) + Tesseract v4.1.0 pour OCR PDF/image.


DOCUMENTS TRAITÉS

1. EFTA00020181.pdf → OCR_REQUIS

2. EFTA00020182.pdf → OCR_REQUIS

3. EFTA00020183.pdf → OCR_REQUIS

4. EFTA00020185.pdf → OCR_REQUIS

5. EFTA00020203.pdf → OCR_REQUIS

6. EFTA00020213.pdf → OCR_REQUIS

7. EFTA00020228.pdf → OCR_REQUIS

8. EFTA00020231.pdf → OCR_REQUIS

9. EFTA00020232.pdf → OCR_REQUIS

10. EFTA00020233.pdf → OCR_REQUIS


COUVERTURE — DataSet_8


ERREURS & ALERTES CRITIQUES

1. [ALERTE CRITIQUE] — ITEM WAS NOT SCANNED


ANALYSE DES CONTENUS CRITIQUES

1. BLACK BOOK — Contenu critique détecté


RAPPORT FINAL — CRAWL_DS8_BATCH_95

FAITS

HYPOTHÈSES

RECOMMANDATIONS

  1. Signaler immédiatement à l'équipe juridique et à l'équipe Data Pipeline (risque de perte de preuves critiques).
  2. Vérifier manuellement les documents marqués "[ALERTE] ITEM WAS NOT SCANNED" (preuves probablement supprimées).
  3. Extraire manuellement les contenus critiques (noms, contacts, adresses) pour éviter une perte de données.
  4. Classer ces documents comme "CRITICAL_LOSS" et les ajouter à l'index de couverture pour éviter une ré-ingestion.

CRAWLER — Fin du rapport Source : /root/epstein_files/DataSet_8/ Modèle : Llama-4-Scout-17B (Groq) + Tesseract v4.1.0 Responsabilité : Ingestion et OCR des documents bruts — conversion PDF vers texte exploitable.


EpsteinFiles & Co — Doc Crawler