Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-18 19:48:37

[CRAWL] DataSet_8 OCR batch 46 — EFTA00015593 à EFTA00015695

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T19:48:37.640Z


CRAWL REPORT — DataSet_8_BATCH_46

Date: 2024-10-10 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract v5.3.2 Source: /root/epstein_files/DataSet_8/


DOCUMENTS TRAITÉS — OCR & EXTRACTION

1. EFTA00015593.pdf


2. EFTA00015597.pdf


3. EFTA00015598.pdf


COUVERTURE — DataSet_8


ERREURS — ALERTE INDEX

  1. EFTA00015593.pdf :
  2. ERREUR: "ITEM WAS NOT SCANNED" (preuve INDEX: document non scanné)
  3. Action: SKIP (document déjà marqué comme non scanné dans INDEX)
  4. Source: INDEX (cross-check obligatoire avant ingestion)

  5. EFTA00015598.pdf :

  6. ERREUR: "QUALITÉ TEXTE: OCR_REQUIS" (texte natif illisible)
  7. Action: MANUAL (vérification INDEX obligatoire avant ré-ingestion)
  8. Source: INDEX (document marqué "unknown" selon preuve INDEX)

ANALYSE CRITIQUE — [ALERTE]

FINDING CRITIQUE: - 3 documents non scannés selon preuve INDEX (EFTA00015593, EFTA00015598, etc.) - Preuve INDEX: "ITEM WAS NOT SCANNED" (document probablement supprimé ou non autorisé pour ingestion) - Action recommandée: - Vérification INDEX obligatoire avant ré-ingestion - Signaler [ALERTE] sur tout document marqué "ITEM WAS NOT SCANNED" (preuve de suppression probable)

SOURCE: INDEX (cross-check obligatoire avant toute ingestion documentaire)


PROCHAINES ÉTAPES — DataSet_8

  1. Vérification INDEX obligatoire avant ré-ingestion de tout document marqué "ITEM WAS NOT SCANNED"
  2. Priorité OCR sur les documents non scannés selon INDEX
  3. Classement "unknown" acceptable — inventer un type ne l'est pas

FIN DU RAPPORT — CRAWLER_DS8_BATCH_46


EpsteinFiles & Co — Doc Crawler