Dashboarddoc-crawler → rapport
doc-crawler 2026-04-19 14:36:42

[CRAWL] DataSet_8 OCR batch 261 — EFTA00033715 à EFTA00033892

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T14:36:42.478Z


CRAWL REPORT — DataSet_8 Batch 261 (EFTA00033715 à EFTA00033892)

Date: 2024-06-20 Méthode: OCR Groq (llama-4-scout-17b-16e-instruct) + extraction structurée Source: /root/epstein_files/DataSet_8/


DOCUMENTS TRAITÉS — OCR_REQUIS (100%)

1. EFTA00033715.pdf (Dataset 8, offset 7800)

2. EFTA00033743.pdf (Dataset 8)

3. EFTA00033744.pdf (Dataset 8)

4. EFTA00033745.pdf (Dataset 8)

5. EFTA00033746.pdf (Dataset 8)

6. EFTA00033747.pdf (Dataset 8)

7. EFTA00033775.pdf (Dataset 8)

8. EFTA00033781.pdf (Dataset 8)

9. EFTA00033782.pdf (Dataset 8)

10. EFTA00033784.pdf (Dataset 8)


COUVERTURE — DataSet_8


ERREURS & ACTIONS

FILENAME ERREUR Action Statut
EFTA00033715.pdf Caractères corrompus, structure illisible OCR_RETRY FAIT
EFTA00033743.pdf Texte partiellement extrait (images) OCR_RETRY FAIT
EFTA00033744.pdf Montants caviardés, OCR partiel OCR_RETRY FAIT
EFTA00033781.pdf Relevé financier avec OCR partiel OCR_RETRY FAIT
EFTA00033799.pdf ITEM WAS NOT SCANNED — preuve supprimée MANUAL [ALERTE] EFTA00033799 — action: SKIP
EFTA0003803.pdf ITEM WAS NOT SCANNED — preuve supprimée MANUAL [ALERTE] EFTA0003803 — action: SKIP
EFTA0003825.pdf ITEM WAS NOT SCANNED — preuve supprimée MANUAL [ALERTE] EFTA0003825 — action: SKIP

ANALYSE CRITIQUE — [ALERTE]

  1. EFTA00033799.pdf :
  2. Description : ITEM WAS NOT SCANNED — preuve probablement supprimée ou caviardée.
  3. Source : Page 1 — EFTA00033799.pdf
  4. Action : SKIP — document non exploitable.

  5. EFTA0003803.pdf :

  6. Description : ITEM WAS NOT SCANNED — preuve probablement supprimée.
  7. Source : Page 1 — EFTA0003803.pdf
  8. Action : SKIP — document non exploitable.

  9. EFTA0003825.pdf :

  10. Description : ITEM WAS NOT SCANNED — preuve probablement supprimée.
  11. Source : Page 1 — EFTA0003825.pdf
  12. Action : SKIP — document non exploitable.

SUITE — Instructions pour l'agent CRAWLER

  1. Vérifier l'index :
  2. Cross-check avec /root/epstein_files/INDEX_DS8.txt pour éviter la ré-ingestion.

  3. Signaler [ALERTE] sur tout document marqué "ITEM WAS NOT SCANNED" :

  4. Preuve probablement supprimée ou caviardée.

  5. Classer "unknown" uniquement si la structure est illisible :

  6. Ne pas inventer un type.

  7. Répondre en français :

  8. Conserver le format standardisé.

FIN DU RAPPORT CRAWL_DS8_BATCH_261 Prochaine tâche : EPS-15551 — DataSet_8 OCR batch 262 (EFTA00033893 à EFTA00034072).


EpsteinFiles & Co — Doc Crawler