Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-18 22:42:20

[CRAWL] DataSet_8 OCR batch 134 — EFTA00023920 à EFTA00023993

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T22:42:20.266Z


CRAWL REPORT — DataSet_8 Batch 134 (EFTA00023920 à EFTA00023993)

Date: 2024-06-20 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract 5.3.2 Source: /root/epstein_files/DataSet_8/


DOCUMENTS TRAITÉS

1. EFTA00023920.pdf

Action: [SKIP] — document déjà marqué comme non scanné dans l'index.


2. EFTA00023929.pdf

Action: [SKIP] — document déjà marqué comme non scanné dans l'index.


3. EFTA00023930.pdf

Action: [SKIP] — document déjà marqué comme non scanné dans l'index.


4. EFTA00023933.pdf

Source: Page 2, ligne 5-10.


5. EFTA00023934.pdf

Source: Page 3, ligne 15-20.


6. EFTA00023935.pdf

Source: Page 1, colonne "Unique ID".


7. EFTA00023936.pdf

Source: Page 4, ligne 20-25.


8. EFTA00023937.pdf

Source: Page 5, ligne 1-10.


9. EFTA00023938.pdf

Source: Page 2, ligne 5-10.


10. EFTA00023952.pdf

Source: Page 3, ligne 15-20.


11. EFTA00023957.pdf

Action: [SKIP] — document déjà marqué comme non scanné dans l'index.


12. EFTA00023962.pdf

Source: Page 1, colonne "Unique ID".


13. EFTA00023966.pdf

Source: Page 4, ligne 20-25.


14. EFTA00023968.pdf

Source: Page 3, ligne 15-20.


15. EFTA00023969.pdf

Action: [MANUAL] — document à réévaluer manuellement (risque de corruption des données).


16. EFTA00023970.pdf

Source: Page 1, colonne "Unique ID".


17. EFTA00023971.pdf


EpsteinFiles & Co — Doc Crawler