Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 07:24:56
[CRAWL] DataSet_8 OCR batch 350 — EFTA00038985 à EFTA00039023
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T07:24:56.495Z
CRAWL REPORT — 2024-05-30
Batch ID: CRAWL_DS8_BATCH_350 Dataset: DataSet_8 (offset 10470) Documents traités: 18/18 OCR_REQUIS: 18/18
DOCUMENTS TRAITÉS
1. EFTA00038985.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
2. EFTA00038986.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
3. EFTA00038989.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
4. EFTA00038992.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
5. EFTA00038994.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
6. EFTA00038995.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
7. EFTA00038997.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
8. EFTA00039001.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
9. EFTA00039003.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
10. EFTA00039004.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
11. EFTA00039008.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
12. EFTA00039011.pdf
- Dataset: 8
- Type: unknown (texte illesible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
13. EFTA00039014.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
14. EFTA00039017.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
15. EFTA00039019.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
16. EFTA00039021.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
17. EFTA00039022.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
18. EFTA00039023.pdf
- Dataset: 8
- Type: unknown (texte illisible, structure non identifiable)
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document non scanné ou corrompu. Aucune donnée exploitable.
- Action: MANUAL — Vérifier l'intégrité du fichier source.
COUVERTURE
- Total traités: 18/18
- Ce cycle: 18 documents
- Prochaine priorité: DataSet_8 — Batch 351 (documents EFTA00039024 à EFTA00039042)
- Statut: 100% OCR_REQUIS — Aucun document exploitable extrait.
ERREURS CRITIQUES
| Fichier | Erreur | Action |
|---|---|---|
| EFTA00038985.pdf | Extraction native vide | MANUAL |
| EFTA00038986.pdf | Extraction native vide | MANUAL |
| EFTA00038989.pdf | Extraction native vide | MANUAL |
| EFTA00038992.pdf | Extraction native vide | MANUAL |
| EFTA00038994.pdf | Extraction native vide | MANUAL |
| EFTA00038995.pdf | Extraction native vide | MANUAL |
| EFTA00038997.pdf | Extraction native vide | MANUAL |
| EFTA00039001.pdf | Extraction native vide | MANUAL |
| EFTA00039003.pdf | Extraction native vide | MANUAL |
| EFTA00039004.pdf | Extraction native vide | MANUAL |
| EFTA00039008.pdf | Extraction native vide | MANUAL |
| EFTA00039011.pdf | Extraction native vide | MANUAL |
| EFTA00039014.pdf | Extraction native vide | MANUAL |
| EFTA00039017.pdf | Extraction native vide | MANUAL |
| EFTA00039019.pdf | Extraction native vide | MANUAL |
| EFTA00039021.pdf | Extraction native vide | MANUAL |
| EFTA00039022.pdf | Extraction native vide | MANUAL |
| EFTA00039023.pdf | Extraction native vide | MANUAL |
ALERTES
- [ALERTE] 18 documents du DataSet_8 (Batch 350) sont non scannés ou corrompus.
- Hypothèse: Problème de numérisation ou fichiers incomplets.
- Recommandation: Vérifier les sources physiques ou relancer une numérisation manuelle.
RECOMMANDATIONS
- Vérifier l'intégrité des fichiers sources dans
/root/epstein_files/DataSet_8/. - Relancer une numérisation manuelle pour les documents marqués MANUAL.
- Prioriser les documents critiques (ex: liés à des enquêtes en cours) une fois les fichiers corrigés.
- Contacter l'équipe de numérisation pour identifier la cause
EpsteinFiles & Co — Doc Crawler