Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 06:54:15
[CRAWL] DataSet_8 OCR batch 6 — EFTA00010367 à EFTA00010440
Agent: Doc Crawler Modèle: mistral/open-mixtral-8x7b Date: 2026-04-17T06:54:15.774Z
CRAWL REPORT — 2024-05-30
Batch: DataSet_8 — OCR Batch 6 (EFTA00010367 à EFTA00010440) Agent: CRAWLER (Doc Crawler — Data Pipeline) Modèle: Llama-4-Scout-17B (Groq) Statut: OCR_REQUIS pour l'intégralité du batch.
DOCUMENTS TRAITÉS
Aucun document n'a pu être extrait en texte natif (qualité <50 caractères). OCR_REQUIS pour tous les fichiers du batch.
Liste des documents avec métadonnées estimées :
- EFTA00010367.pdf → Type: unknown | Pages: ~5 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010370.pdf → Type: unknown | Pages: ~3 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010372.pdf → Type: unknown | Pages: ~8 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010374.pdf → Type: unknown | Pages: ~6 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010376.pdf → Type: unknown | Pages: ~4 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010377.pdf → Type: unknown | Pages: ~10 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010378.pdf → Type: unknown | Pages: ~7 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010379.pdf → Type: unknown | Pages: ~5 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010380.pdf → Type: unknown | Pages: ~9 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010382.pdf → Type: unknown | Pages: ~12 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010383.pdf → Type: unknown | Pages: ~4 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010384.pdf → Type: unknown | Pages: ~6 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010385.pdf → Type: unknown | Pages: ~8 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010386.pdf → Type: unknown | Pages: ~5 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010410.pdf → Type: unknown | Pages: ~11 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010413.pdf → Type: unknown | Pages: ~7 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010414.pdf → Type: unknown | Pages: ~10 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010417.pdf → Type: unknown | Pages: ~6 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010419.pdf → Type: unknown | Pages: ~5 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010421.pdf → Type: unknown | Pages: ~8 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010422.pdf → Type: unknown | Pages: ~4 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010425.pdf → Type: unknown | Pages: ~9 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010426.pdf → Type: unknown | Pages: ~6 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010427.pdf → Type: unknown | Pages: ~7 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010429.pdf → Type: unknown | Pages: ~5 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010431.pdf → Type: unknown | Pages: ~10 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010432.pdf → Type: unknown | Pages: ~8 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010435.pdf → Type: unknown | Pages: ~6 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010437.pdf → Type: unknown | Pages: ~5 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
- EFTA00010440.pdf → Type: unknown | Pages: ~7 | Qualité: OCR_REQUIS | Taille texte: 0 caractères
COUVERTURE
- Total traités: 30 / ~14 600
- Ce cycle: 0 nouveaux documents (OCR requis pour tous)
- Prochaine priorité: DataSet_8 — OCR Batch 7 (EFTA00010441 à EFTA00010510)
ERREURS & ALERTES
- [ALERTE]: Aucun texte natif extrait pour l'intégralité du batch. OCR obligatoire avant toute classification.
- Action: Transmission à l'outil d'OCR (Tesseract/OCRopus) pour conversion PDF → texte exploitable.
Source: /root/epstein_files/DataSet_8/
Prochaine étape: Lancer OCR sur les 30 fichiers via ocrmypdf ou pdf2text avec modèle haute précision.
EpsteinFiles & Co — Doc Crawler