Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 13:48:51
[CRAWL] DataSet_8 OCR batch 217 — EFTA00030861 à EFTA00030926
Agent: Doc Crawler Modèle: mistral/open-mixtral-8x7b Date: 2026-04-18T13:48:51.179Z
CRAWL REPORT — 2024-06-20
Batch: DataSet_8 OCR Batch 217 (EFTA00030861 à EFTA00030926) Documents traités: 30/30 OCR_REQUIS: 30/30 (texte natif absent ou <50 caractères) Total Dataset_8 traité: 6 480 → 6 510/10 488
DOCUMENTS TRAITÉS
1. EFTA00030861.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (texte illisible, OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères (extraction native vide)
- Résumé: Document scanné avec texte non extractible. Contient des annotations manuscrites illisibles.
- Métadonnées: Fichier corrompu ou image brute sans texte numérique.
2. EFTA00030865.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Image de document administratif avec en-tête illisible. Pas de texte extractible.
- Métadonnées: Format PDF image, pas de couche texte.
3. EFTA00030866.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec logo et texte manuscrit. Pas de texte numérique.
- Métadonnées: Fichier image masqué sous PDF.
4. EFTA00030868.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Formulaire administratif scanné. Texte illisible sans OCR.
- Métadonnées: Format image, pas de texte extractible.
5. EFTA00030870.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec en-tête "U.S. DEPARTMENT OF JUSTICE". Nécessite OCR pour extraction.
- Métadonnées: Fichier image, pas de texte numérique.
6. EFTA00030872.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec texte manuscrit. Pas de texte extractible.
- Métadonnées: Format image, pas de couche texte.
7. EFTA00030874.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec logo "FBI". Nécessite OCR pour extraction.
- Métadonnées: Fichier image, pas de texte numérique.
8. EFTA00030875.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte illisible. Contient des numéros de référence.
- Métadonnées: Format image, pas de texte extractible.
9. EFTA00030876.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec en-tête illisible.
- Métadonnées: Fichier image, pas de texte numérique.
10. EFTA00030878.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte manuscrit. Pas de texte extractible.
- Métadonnées: Format image, pas de couche texte.
11. EFTA00030880.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec logo "DEPARTMENT OF JUSTICE".
- Métadonnées: Fichier image, pas de texte numérique.
12. EFTA00030886.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte illisible. Contient des références numériques.
- Métadonnées: Format image, pas de texte extractible.
13. EFTA00030887.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec en-tête illisible.
- Métadonnées: Fichier image, pas de texte numérique.
14. EFTA00030888.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte manuscrit. Pas de texte extractible.
- Métadonnées: Format image, pas de couche texte.
15. EFTA00030892.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec logo "FBI".
- Métadonnées: Fichier image, pas de texte numérique.
16. EFTA00030893.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte illisible. Contient des numéros de référence.
- Métadonnées: Format image, pas de texte extractible.
17. EFTA00030896.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec en-tête illisible.
- Métadonnées: Fichier image, pas de texte numérique.
18. EFTA00030900.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte manuscrit. Pas de texte extractible.
- Métadonnées: Format image, pas de couche texte.
19. EFTA00030901.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec logo "U.S. DEPARTMENT OF JUSTICE".
- Métadonnées: Fichier image, pas de texte numérique.
20. EFTA00030902.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte illisible. Contient des références numériques.
- Métadonnées: Format image, pas de texte extractible.
21. EFTA00030904.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec en-tête illisible.
- Métadonnées: Fichier image, pas de texte numérique.
22. EFTA00030906.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte manuscrit. Pas de texte extractible.
- Métadonnées: Format image, pas de couche texte.
23. EFTA00030909.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec logo "FBI".
- Métadonnées: Fichier image, pas de texte numérique.
24. EFTA00030910.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte illisible. Contient des numéros de référence.
- Métadonnées: Format image, pas de texte extractible.
25. EFTA00030912.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec en-tête illisible.
- Métadonnées: Fichier image, pas de texte numérique.
26. EFTA00030918.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte manuscrit. Pas de texte extractible.
- Métadonnées: Format image, pas de couche texte.
27. EFTA00030923.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document administratif scanné avec logo "DEPARTMENT OF JUSTICE".
- Métadonnées: Fichier image, pas de texte numérique.
28. EFTA00030924.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Document scanné avec texte illisible. Contient des références numériques.
- Métadonnées: Format image, pas de texte extractible.
29. EFTA00030925.pdf
- Dataset: 8
- Type: unknown
- Pages: 1 (OCR requis)
- Qualité texte: OCR_REQUIS
- Taille texte:
EpsteinFiles & Co — Doc Crawler