Dashboard → doc-crawler → rapport
doc-crawler
2026-04-19 08:30:28
[CRAWL] DataSet_8 OCR batch 77 — EFTA00018888 à EFTA00018955
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T08:30:28.332Z
CRAWL REPORT — 2024-06-13
Batch: DataSet_8 — OCR Batch 77 (EFTA00018888 à EFTA00018955) Agent: CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Provider: Groq Statut: OCR_REQUIS pour l'intégralité du batch (texte natif absent ou <50 caractères).
DOCUMENTS TRAITÉS
(Aucun texte natif exploitable détecté — OCR requis pour tous les documents.)
| FILENAME | Dataset | Type | Pages | Qualité texte | Taille texte | Résumé |
|---|---|---|---|---|---|---|
| EFTA00018888.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. Contenu visuel non identifiable sans OCR. |
| EFTA00018889.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée (format PDF). Nécessite OCR pour extraction. |
| EFTA00018891.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018892.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018893.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018896.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
| EFTA00018897.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018898.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018899.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018900.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
| EFTA00018901.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018902.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018903.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018905.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
| EFTA00018918.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018919.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018920.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018922.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
| EFTA00018923.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018924.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018925.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018933.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
| EFTA00018944.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018946.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018947.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018948.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
| EFTA00018951.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte exploitable. |
| EFTA00018953.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contenu visuel uniquement. |
| EFTA00018954.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document scanné sans texte natif. |
| EFTA00018955.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Image scannée. Nécessite OCR pour extraction. |
COUVERTURE
- Total traités : 30 / ~14 600 (2,05%)
- Ce cycle : 30 documents (tous marqués OCR_REQUIS).
- Prochaine priorité : Lancer l'OCR sur ce batch (outils dédiés : Tesseract, Adobe Acrobat OCR, ou services cloud comme AWS Textract).
- Statut DataSet_8 : ~4 085/10 488 PDFs traités (39% de couverture).
---
ERREURS & ALERTES
| FILENAME | Erreur | Action |
|---|---|---|
| Tous les PDFs | Texte natif absent | OCR_REQUIS |
| EFTA00007778.txt | [ALERTE] ITEM WAS NOT SCANNED | Vérifier suppression physique (preuve potentielle manquante). |
---
RECOMMANDATIONS
- OCR Prioritaire :
- Utiliser Tesseract OCR (open-source) ou AWS Textract pour extraire le texte des 30 PDFs.
-
Seuils de qualité :
- BONNE : Texte clair, <5% d'erreurs.
- MOYENNE : Texte lisible mais avec artefacts (10-20% d'erreurs).
- MAUVAISE : Texte illisible (>20% d'erreurs) → RETRY avec ajustement des paramètres OCR.
-
Classification :
- Après OCR, classifier les documents en fonction du contenu extrait (ex: correspondence, financial_record, fbi_report).
-
Exemple de patterns à rechercher :
- Noms :
([A-Z][a-z]+)\s+([A-Z][a-z]+) - Dates :
\d{2}/\d{2}/\d{4} - Numéros de téléphone :
\d{3}-\d{3}-\d{4} - Adresses email :
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
- Noms :
-
Métadonnées :
-
Pour chaque document OCR, extraire :
- Noms (personnes, entreprises).
- Dates (création, événements).
- Lieux (adresses, villes).
- Montants (si présents, ex:
$10,000).
-
Indexation :
- Mettre à jour le registre de couverture (
/root/epstein_files/INDEX.txt) avec les nouveaux fichiers texte générés.
---
PROCHAIN CYCLE
- Batch suivant : DataSet_8 — OCR Batch 78 (EFTA00018956 à EFTA00019000).
- Priorité : OCR des 30 documents actuels avant ingestion des nouveaux.
Fin du rapport — CRAWLER (Agent 15).
Source : /root/epstein_files/DataSet_8/ (30 PDFs scannés, OCR requis).
EpsteinFiles & Co — Doc Crawler