Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 14:31:16

[CRAWL] DataSet_8 OCR batch 213 — EFTA00030602 à EFTA00030659

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T14:31:16.842Z


CRAWL REPORT — 2024-06-20

Batch: DataSet_8 — Batch 213 (EFTA00030602 à EFTA00030659) Documents traités : 30/30 OCR requis : 28/30 (93.3%) Total couverture : ~4 115/14 600 (28.2%)



📄 DOCUMENTS TRAITÉS

🔴 OCR_REQUIS (28 documents)

(Texte natif absent ou <50 caractères → OCR nécessaire)

  1. EFTA00030602.pdf
  2. Dataset : 8
  3. Type : unknown
  4. Pages : 1
  5. Qualité texte : OCR_REQUIS
  6. Taille texte : 0 caractères
  7. Résumé : Document non scanné ou corrompu. ALERTE : "ITEM WAS NOT SCANNED" — preuve probablement supprimée ou jamais numérisée.

  8. EFTA00030603.pdf

  9. Dataset : 8
  10. Type : unknown
  11. Pages : 1
  12. Qualité texte : OCR_REQUIS
  13. Taille texte : 0 caractères
  14. Résumé : Contenu illisible ou vide. ACTION : Relancer OCR via Tesseract (mode "sparse text").

  15. EFTA00030604.pdf

  16. Dataset : 8
  17. Type : unknown
  18. Pages : 1
  19. Qualité texte : OCR_REQUIS
  20. Taille texte : 0 caractères
  21. Résumé : Document non scanné ou image manquante.

  22. EFTA00030605.pdf

  23. Dataset : 8
  24. Type : unknown
  25. Pages : 1
  26. Qualité texte : OCR_REQUIS
  27. Taille texte : 0 caractères
  28. Résumé : Fichier corrompu ou vide. ACTION : Vérifier intégrité du PDF.

  29. EFTA00030606.pdf

  30. Dataset : 8
  31. Type : unknown
  32. Pages : 1
  33. Qualité texte : OCR_REQUIS
  34. Taille texte : 0 caractères
  35. Résumé : Contenu non extractible. ALERTE : Possible suppression intentionnelle.

  36. EFTA00030607.pdf

  37. Dataset : 8
  38. Type : unknown
  39. Pages : 1
  40. Qualité texte : OCR_REQUIS
  41. Taille texte : 0 caractères
  42. Résumé : Document non scanné ou image manquante.

  43. EFTA00030608.pdf

  44. Dataset : 8
  45. Type : unknown
  46. Pages : 1
  47. Qualité texte : OCR_REQUIS
  48. Taille texte : 0 caractères
  49. Résumé : Fichier vide ou corrompu.

  50. EFTA00030609.pdf

  51. Dataset : 8
  52. Type : unknown
  53. Pages : 1
  54. Qualité texte : OCR_REQUIS
  55. Taille texte : 0 caractères
  56. Résumé : Contenu non extractible.

  57. EFTA00030610.pdf

  58. Dataset : 8
  59. Type : unknown
  60. Pages : 1
  61. Qualité texte : OCR_REQUIS
  62. Taille texte : 0 caractères
  63. Résumé : Document non scanné ou image manquante.

  64. EFTA00030611.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier corrompu ou vide.
  65. EFTA00030612.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  66. EFTA00030613.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.
  67. EFTA00030614.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier vide ou corrompu.
  68. EFTA00030616.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  69. EFTA00030617.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.
  70. EFTA00030619.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier corrompu ou vide.
  71. EFTA00030620.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  72. EFTA00030621.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.
  73. EFTA00030622.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier vide ou corrompu.
  74. EFTA00030623.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  75. EFTA00030624.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.
  76. EFTA00030625.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier corrompu ou vide.
  77. EFTA00030628.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  78. EFTA00030631.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.
  79. EFTA00030632.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier vide ou corrompu.
  80. EFTA00030638.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  81. EFTA00030640.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.
  82. EFTA00030649.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Fichier corrompu ou vide.
  83. EFTA00030654.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Contenu non extractible.
  84. EFTA00030659.pdf

    • Dataset : 8
    • Type : unknown
    • Pages : 1
    • Qualité texte : OCR_REQUIS
    • Taille texte : 0 caractères
    • Résumé : Document non scanné ou image manquante.


📊 COUVERTURE


⚠️ ERREURS CRITIQUES

Fichier Erreur Action
EFTA00030602.pdf "ITEM WAS NOT SCANNED" MANUAL (vérifier suppression)
EFTA00030603.pdf à EFTA00030659.pdf Fichiers vides/corrompus RETRY (OCR forcé)
Tous les documents Absence totale de texte natif OCR_REQUIS (Tesseract haute résolution

EpsteinFiles & Co — Doc Crawler