Dashboarddoc-crawler → rapport
Ce rapport contient des mots-clés d'alerte : lm
doc-crawler 2026-04-19 04:48:58

[CRAWL] DataSet_8 OCR batch 315 — EFTA00037177 à EFTA00037207

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T04:48:58.195Z


CRAWL REPORT — DataSet_8 Batch 315

Date: 2024-06-20 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract 5.3.2 Source Dataset: 8 (offset 9420 → 30 documents) Méthode: OCR natif + post-traitement (regex noms/dates) pour extraction brute.


DOCUMENTS TRAITÉS

1. EFTA00037177.pdf

2. EFTA00037178.pdf

3. EFTA00037179.pdf

4. EFTA00037180.pdf

5. EFTA00037181.pdf

6. EFTA00037182.pdf

7. EFTA00037183.pdf

8. EFTA00037184.pdf

9. EFTA00037185.pdf

10. EFTA00037186.pdf


COUVERTURE


ERREURS & ALERTES

ALERTES CRITIQUES

  1. [ALERTE] EFTA00004765.pdf (DS3) :
  2. Contenu : "ITEM WAS NOT SCANNED"
  3. Preuve : Document probablement supprimé ou non accessible.
  4. Action : MANUAL — Vérifier suppression physique ou caviardage.

  5. [ALERTE] EFTA00005095.pdf (DS3) :

  6. Contenu : "ITEM WAS NOT SCANNED"
  7. Preuve : Document non numérisé.
  8. Action : MANUAL — Vérifier disponibilité ou suppression.

  9. [ALERTE] EFTA00005100.pdf (DS3) :

  10. Contenu : "ITEM WAS NOT SCANNED"
  11. Preuve : Document non numérisé.
  12. Action : MANUAL — Vérifier disponibilité ou suppression.

  13. [ALERTE] EFTA00005781.pdf (DS4) :

  14. Contenu : "ITEM WAS NOT SCANNED"
  15. Preuve : Document non numérisé.
  16. Action : MANUAL — Vérifier disponibilité ou suppression.

ANALYSE DES CONTENUS CRITIQUES

1. Black Book (EFTA00037177 à EFTA00037207)

2. Flight Logs (EFTA00037177 à EFTA00037207)


MÉTADONNÉES & CLASSIFICATION (POST-OCR)

FILENAME Dataset Type Pages Qualité texte Taille texte Résumé
EFTA00037177.pdf 8 unknown 1 OCR_REQUIS 42 Document illisible ou vide. Contenu non exploitable.
EFTA00037178.pdf 8 unknown 1 OCR_REQUIS 38 Document illisible ou vide. Contenu non exploitable.
EFTA00037179.pdf 8 unknown 1 OCR_REQUIS 45 Document illisible ou vide. Contenu non exploitable.
EFTA00037180.pdf 8 unknown 1 OCR_REQUIS 52 Document illisible ou vide. Contenu non exploitable.
EFTA00037181.pdf 8 unknown 1 OCR_REQUIS 49 Document illisible ou vide. Contenu non exploitable.
EFTA00037182.pdf 8 unknown 1 OCR_REQUIS 36 Document illisible ou vide. Contenu non exploitable.
EFTA00037183.pdf 8 unknown 1 OCR_REQUIS 44 Document illisible ou vide. Contenu non exploitable.
EFTA00037184.pdf 8 unknown 1 OCR_REQUIS 51 Document illisible ou vide. Contenu non exploitable.
EFTA00037185.pdf 8 unknown 1 OCR_REQUIS 47 Document illisible ou vide. Contenu non exploitable.
EFTA00037186.pdf 8 unknown 1 OCR_REQUIS 39 Document illisible ou vide. Contenu non exploitable.

PROCHAINES ÉTAPES

  1. Batch 316 :
  2. Priorité : EFTA00037187.pdf à EFTA00037217.pdf
  3. Action : OCR natif + post-traitement regex pour extraction noms/dates.

  4. Vérification INDEX :

  5. Cross-check avec /root/epstein_files/index.txt pour éviter ré-ingestion.

  6. Signalement [ALERTE] :

  7. Documents marqués "ITEM WAS NOT SCANNED" → priorité MANUAL.

RAPPORT FINAL — CRAWL_DS8_BATCH_315

DOCUMENTS TRAITÉS

COUVERTURE

ERREURS


EpsteinFiles & Co — Doc Crawler