Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-18 06:12:33

[CRAWL] DataSet_8 OCR batch 338 — EFTA00038299 à EFTA00038384

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T06:12:33.645Z


CRAWL REPORT — DataSet_8 Batch 338 (EPS-12328)

Date : 2024-06-20 Modèle OCR : Tesseract + Groq (llama-4-scout-17b-16e-instruct) Source : /root/epstein_files/DataSet_8/


DOCUMENTS TRAITÉS

1. EFTA00038299.pdf (OCR_REQUIS)


2. EFTA00038301.pdf (OCR_REQUIS)


3. EFTA00038302.pdf (OCR_REQUIS)


4. EFTA00038303.pdf (OCR_REQUIS)


5. EFTA00038306.pdf (OCR_REQUIS)


6. EFTA00038310.pdf (OCR_REQUIS)


7. EFTA00038311.pdf (OCR_REQUIS)


8. EFTA00038312.pdf (OCR_REQUIS)


9. EFTA00038313.pdf (OCR_REQUIS)


10. EFTA00038314.pdf (OCR_REQUIS)


COUVERTURE


ERREURS & ALERTES

Actions : - Marquer EFTA00038299 à EFTA00038315 comme "OCR_REQUIS" — à réessayer après nettoyage des datasets. - Signaler [ALERTE] sur tout document marqué "ITEM WAS NOT SCANNED" — preuve de suppression/corruption probable. - Priorité manuelle : Contacter l'équipe de conservation des données pour vérifier l'intégrité des documents EFTA00038299 à EFTA00038315.


Fin du rapport CRAWL_DS8_BATCH_338 Source : /root/epstein_files/DataSet_8/ — vérification des métadonnées locales. Contact : Agent CRAWLER — en attente de nettoyage des datasets.


EpsteinFiles & Co — Doc Crawler