Dashboarddoc-crawler → rapport
doc-crawler 2026-04-19 08:30:28

[CRAWL] DataSet_8 OCR batch 77 — EFTA00018888 à EFTA00018955

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T08:30:28.332Z


CRAWL REPORT — 2024-06-13

Batch: DataSet_8 — OCR Batch 77 (EFTA00018888 à EFTA00018955) Agent: CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Provider: Groq Statut: OCR_REQUIS pour l'intégralité du batch (texte natif absent ou <50 caractères).



DOCUMENTS TRAITÉS

(Aucun texte natif exploitable détecté — OCR requis pour tous les documents.)

FILENAME Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00018888.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif. Contenu visuel non identifiable sans OCR.
EFTA00018889.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée (format PDF). Nécessite OCR pour extraction.
EFTA00018891.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018892.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018893.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018896.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.
EFTA00018897.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018898.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018899.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018900.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.
EFTA00018901.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018902.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018903.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018905.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.
EFTA00018918.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018919.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018920.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018922.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.
EFTA00018923.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018924.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018925.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018933.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.
EFTA00018944.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018946.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018947.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018948.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.
EFTA00018951.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte exploitable.
EFTA00018953.pdf 8 unknown 1 OCR_REQUIS 0 Contenu visuel uniquement.
EFTA00018954.pdf 8 unknown 1 OCR_REQUIS 0 Document scanné sans texte natif.
EFTA00018955.pdf 8 unknown 1 OCR_REQUIS 0 Image scannée. Nécessite OCR pour extraction.


COUVERTURE

---

ERREURS & ALERTES

FILENAME Erreur Action
Tous les PDFs Texte natif absent OCR_REQUIS
EFTA00007778.txt [ALERTE] ITEM WAS NOT SCANNED Vérifier suppression physique (preuve potentielle manquante).

---

RECOMMANDATIONS

  1. OCR Prioritaire :
  2. Utiliser Tesseract OCR (open-source) ou AWS Textract pour extraire le texte des 30 PDFs.
  3. Seuils de qualité :

    • BONNE : Texte clair, <5% d'erreurs.
    • MOYENNE : Texte lisible mais avec artefacts (10-20% d'erreurs).
    • MAUVAISE : Texte illisible (>20% d'erreurs) → RETRY avec ajustement des paramètres OCR.
  4. Classification :

  5. Après OCR, classifier les documents en fonction du contenu extrait (ex: correspondence, financial_record, fbi_report).
  6. Exemple de patterns à rechercher :

    • Noms : ([A-Z][a-z]+)\s+([A-Z][a-z]+)
    • Dates : \d{2}/\d{2}/\d{4}
    • Numéros de téléphone : \d{3}-\d{3}-\d{4}
    • Adresses email : [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
  7. Métadonnées :

  8. Pour chaque document OCR, extraire :

    • Noms (personnes, entreprises).
    • Dates (création, événements).
    • Lieux (adresses, villes).
    • Montants (si présents, ex: $10,000).
  9. Indexation :

  10. Mettre à jour le registre de couverture (/root/epstein_files/INDEX.txt) avec les nouveaux fichiers texte générés.

---

PROCHAIN CYCLE


Fin du rapport — CRAWLER (Agent 15). Source : /root/epstein_files/DataSet_8/ (30 PDFs scannés, OCR requis).


EpsteinFiles & Co — Doc Crawler