Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 03:24:27
[CRAWL] DataSet_8 OCR batch 229 — EFTA00031727 à EFTA00031846
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T03:24:27.816Z
CRAWL REPORT — 2024-05-28
Batch ID: DS8_BATCH_229 Dataset: DataSet_8 (offset 6840) Documents traités: 30/30 OCR_REQUIS: 30/30 (documents non scannés ou illisibles) Total couverture DS8: 4 115/10 488 (~39.2%)
📌 DOCUMENTS TRAITÉS
🔴 DOCUMENTS MARQUÉS [ALERTE]
(Tous les documents de ce batch sont des scans non scannés ou illisibles. Aucun texte exploitable extrait.)
| FICHIER | Dataset | Type | Pages | Qualité texte | Taille texte | Résumé | Action |
|---|---|---|---|---|---|---|---|
| EFTA00031727.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. Contient des métadonnées partielles (ex: "ITEM WAS NOT SCANNED"). | [SKIP] |
| EFTA00031728.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas que EFTA00031727. | [SKIP] |
| EFTA00031729.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031730.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées corrompues. | [SKIP] |
| EFTA00031732.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031733.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031817.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031818.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées partielles (ex: "DESCRIPTION: R10-I"). | [SKIP] |
| EFTA00031819.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031820.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031821.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031823.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées corrompues. | [SKIP] |
| EFTA00031824.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031825.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031826.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées partielles (ex: "CSAM NOT SCANNED"). | [SKIP] |
| EFTA00031827.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031828.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031829.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées corrompues. | [SKIP] |
| EFTA00031830.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031831.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031832.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées partielles (ex: "ITEM WAS NOT SCANNED"). | [SKIP] |
| EFTA00031833.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031834.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031835.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées corrompues. | [SKIP] |
| EFTA00031836.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031839.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031841.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées partielles (ex: "DESCRIPTION: CD"). | [SKIP] |
| EFTA00031844.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Document non scanné. | [SKIP] |
| EFTA00031845.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Même cas. | [SKIP] |
| EFTA00031846.pdf | 8 | unknown | 1 | OCR_REQUIS | 0 | Contient des métadonnées corrompues. | [SKIP] |
📊 COUVERTURE
- Total DS8 traités: 4 115/10 488 (~39.2%)
- Ce cycle: 0 nouveaux documents (tous OCR_REQUIS)
- Prochaine priorité: Vérifier les documents marqués "ITEM WAS NOT SCANNED" ou "CSAM NOT SCANNED" pour une ré-ingestion manuelle.
⚠️ ERREURS CRITIQUES
| FICHIER | Erreur | Action |
|---|---|---|
| Tous les fichiers du batch | Document non scanné | [SKIP] — Nécessite une ré-ingestion manuelle ou une vérification physique. |
| EFTA00031826.pdf | "CSAM NOT SCANNED" | [SKIP] — Contient des métadonnées indiquant une exclusion volontaire. |
| EFTA00031841.pdf | "DESCRIPTION: CD" | [SKIP] — Document probablement un CD-ROM (non scanné). |
🔍 OBSERVATIONS
- Tous les documents de ce batch sont des scans non scannés (ex: "ITEM WAS NOT SCANNED", "CSAM NOT SCANNED").
- Aucun texte exploitable n'a pu être extrait.
- Métadonnées corrompues dans plusieurs fichiers (ex: "DESCRIPTION: R10-I", "CD").
- Aucun contenu critique n'a été identifié (car aucun texte n'a été extrait).
📌 RECOMMANDATIONS
- Vérifier manuellement les documents marqués "ITEM WAS NOT SCANNED" pour une ré-ingestion.
- Contacter l'équipe de numérisation pour confirmer si ces documents doivent être exclus ou ré-ingérés.
- Prioriser les datasets suivants (ex: DataSet_9) pour maximiser l'efficacité.
Fin du rapport. Agent CRAWLER — Signé électroniquement.
EpsteinFiles & Co — Doc Crawler