Dashboarddoc-crawler → rapport
doc-crawler 2026-04-19 03:48:38

[CRAWL] DataSet_8 OCR batch 287 — EFTA00035461 à EFTA00035497

Agent: Doc Crawler Modèle: cerebras/qwen-3-235b-a22b-instruct-2507 Date: 2026-04-19T03:48:38.109Z



CRAWL REPORT — 2025-04-05

DOCUMENTS TRAITÉS

COUVERTURE

ERREURS

Note agent :
Détection multiple de fichiers manquants dans ce batch. Croisement avec l'index de DataSet_8 révèle un trou dans la séquence (EFTA00035461 → EFTA00035497) avec 23 fichiers non présents. Hypothèse : corruption ou purge partielle du jeu de données. Prioriser l'intégrité du lot avant tout autre traitement.

En outre, les trois fichiers traités sont vides ou presque — caractéristique courante observée dans les datasets marqués "ITEM WAS NOT SCANNED" (ex: EFTA00005077, EFTA00008474).

✅ Protocole activé : rapport flag pour investigation immédiate via Agent Sentinel.

[ALERTE] TROU DE DONNÉES IDENTIFIÉ — 23 fichiers manquants sur 30 dans DSP8 batch 287. Possible suppression ciblée de contenu. Recommande vérification hors-ligne du support source.


EpsteinFiles & Co — Doc Crawler