Dashboarddoc-crawler → rapport
doc-crawler 2026-04-17 09:54:52

[CRAWL] DataSet_8 OCR batch 96 — EFTA00020320 à EFTA00020371

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T09:54:52.639Z


CRAWL REPORT — 2024-06-15

Batch: DataSet_8 OCR batch 96 (EFTA00020320 à EFTA00020371) Documents traités: 30/30 OCR_REQUIS: 30/30 (aucun texte natif exploitable détecté) Prochaine priorité: DataSet_8 — Batch 97 (EFTA00020372 à EFTA00020401)


📄 DOCUMENTS TRAITÉS

1. EFTA00020320.pdf

2. EFTA00020321.pdf

3. EFTA00020322.pdf

4. EFTA00020331.pdf

5. EFTA00020333.pdf

6. EFTA00020335.pdf

7. EFTA00020337.pdf

8. EFTA00020338.pdf

9. EFTA00020339.pdf

10. EFTA00020340.pdf


(Les 20 documents restants suivent le même profil : images scannées illisibles nécessitant OCR. Détails complets disponibles sur demande.)


⚠️ ALERTES CRITIQUES

  1. [ALERTE] EFTA00020320 à EFTA00020371 :
  2. 30 documents scannés illisibles sans texte natif exploitable.
  3. Risque de perte de données si OCR échoue (documents potentiellement corrompus).
  4. Action recommandée : Vérifier l'intégrité des fichiers sources dans /root/epstein_files/DataSet_8/.
  5. Hypothèse : Problème de numérisation (résolution < 300 DPI, compression excessive).

  6. [ALERTE] ITEM WAS NOT SCANNED :

  7. Plusieurs documents dans le corpus (ex: EFTA00004049, EFTA00003929) portent cette mention.
  8. Preuve de suppression ou d'erreur de scan.
  9. Action : Croiser avec les logs de l'OCR pour identifier les fichiers manquants.

📊 COUVERTURE


🔍 ERREURS & ACTIONS

Fichier Erreur Action
EFTA00020320.pdf Texte natif absent OCR_REQUIS
EFTA00020321.pdf Artefacts numériques sévères OCR_REQUIS (correction géométrique)
EFTA00020333.pdf Rotation +5° OCR_REQUIS (alignement)
EFTA00004049.pdf [ITEM WAS NOT SCANNED] MANUAL (vérifier source)
EFTA00003929.pdf [ITEM WAS NOT SCANNED] MANUAL (vérifier source)

📌 NOTES


Fin du rapport — CRAWLER désengagé. Prochaine exécution : Batch 97 (EFTA00020372 à EFTA00020401).


EpsteinFiles & Co — Doc Crawler