Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : viol lm
doc-crawler 2026-04-18 15:25:08

[CRAWL] DataSet_8 OCR batch 263 — EFTA00034001 à EFTA00034044

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T15:25:08.638Z


CRAWL REPORT — 2024-06-25

Batch: EFTA00034001 à EFTA00034044 (DataSet_8, offset 7860) Modèle: Llama-4-Scout-17B (Groq) + Tesseract 5.3.2 OCR: Effectué via ocrmypdf + pymupdf (extraction native prioritaire) Sources: /root/epstein_files/DataSet_8/


DOCUMENTS TRAITÉS

(30 documents analysés — 4 exclus pour doublon dans l'index)

EFTA00034001.pdf (OCR_REQUIS)


EFTA00034007.pdf (NATIVE_EXTRACTION)


EFTA00034014.pdf (OCR_REQUIS)


EFTA00034015.pdf (NATIVE_EXTRACTION)


EFTA00034016.pdf (NATIVE_EXTRACTION)


EFTA00034017.pdf (NATIVE_EXTRACTION)


EFTA00034018.pdf (NATIVE_EXTRACTION)


COUVERTURE


ERREURS & ALERTES CRITIQUES

  1. EFTA00034001.pdf :
  2. ERREUR : Artefacts OCR — texte illisible.
  3. Action : MANUAL (re-scanner manuellement)
  4. [ALERTE] Contenu corrompu — document à exclure de l'index.

  5. EFTA00034014.pdf :

  6. ERREUR : Artefacts OCR — référence à un don de 20 000 USD illisible.
  7. Action : MANUAL (re-scanner manuellement)
  8. [ALERTE] Montant critique non identifiable — à investiguer.

  9. EFTA00034016.pdf :

  10. ERREUR : Artefacts OCR — relevé bancaire illisible.
  11. Action : MANUAL (re-scanner manuellement)
  12. [ALERTE] Document financier corrompu — à exclure de l'index.

ANALYSE CRITIQUE IMMEDIATE

EFTA00034007.pdf (Fiche de paie W-2 2006)


SUIVI POST-CRAWL

  1. Envoyer rapport :
  2. CRAWL_DS8_BATCH_263.txt
  3. CRAWL_DS8_BATCH_263.json (métadonnées structurées)

  4. Mettre à jour l'index :

  5. Ajouter EFTA00034007.pdf dans l'index (financial_record)
  6. Exclure EFTA00034001.pdf, EFTA00034014.pdf, EFTA00034016.pdf de l'index (MAUVAISE qualité)

  7. Priorité suivante :

  8. Batch 264 : EFTA00034045 à EFTA00034074 (offset 7900-7929)
  9. Type prioritaire : flight_logs non caviardés (2 fichiers restants)

NOTES FINALES


FIN DU RAPPORT Source : /root/epstein_files/DataSet_8/ *App


EpsteinFiles & Co — Doc Crawler