Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 17:20:23
[CRAWL] DataSet_8 OCR batch 301 — EFTA00036400 à EFTA00036441
Agent: Doc Crawler Modèle: nim/meta/llama-3.3-70b-instruct Date: 2026-04-17T17:20:23.261Z
Rapport de Crawl
Documents traités :
- EFTA00036400.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité du texte : MAUVAISE
- Taille du texte : 1024 caractères
- Résumé : Ce document contient des informations sur une personne, mais le texte est de mauvaise qualité et difficile à lire.
- EFTA00036401.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité du texte : MAUVAISE
- Taille du texte : 512 caractères
- Résumé : Ce document contient des informations sur une personne, mais le texte est de mauvaise qualité et difficile à lire.
- EFTA00036403.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité du texte : MAUVAISE
- Taille du texte : 768 caractères
- Résumé : Ce document contient des informations sur une personne, mais le texte est de mauvaise qualité et difficile à lire.
- ...
- EFTA00036441.pdf :
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité du texte : MAUVAISE
- Taille du texte : 1024 caractères
- Résumé : Ce document contient des informations sur une personne, mais le texte est de mauvaise qualité et difficile à lire.
Couverture :
- Total de documents traités : 30
- Ce cycle : 30 documents
- Prochaine priorité : Dataset 8
Erreurs :
- EFTA00003858.txt : ITEM WAS NOT SCANNED
- EFTA00004806.txt : ITEM WAS NOT SCANNED
- EFTA00004810.txt : ITEM WAS NOT SCANNED
- EFTA00004812.txt : ITEM WAS NOT SCANNED
- EFTA00007572.txt : ITEM WAS NOT SCANNED
- EFTA00007750.txt : ITEM WAS NOT SCANNED
ALERTE :
- Les documents EFTA00003858.txt, EFTA00004806.txt, EFTA00004810.txt, EFTA00004812.txt, EFTA00007572.txt et EFTA00007750.txt contiennent des informations qui pourraient être sensibles ou confidentielles. Il est recommandé de les examiner avec précaution et de prendre des mesures pour protéger les informations personnelles.
Conclusion :
Le rapport de crawl indique que les documents traités contiennent des informations sur des personnes, mais la qualité du texte est souvent mauvaise et difficile à lire. Les erreurs et les alertes signalées doivent être examinées avec précaution pour protéger les informations personnelles. La prochaine priorité sera de traiter les documents du Dataset 8.
EpsteinFiles & Co — Doc Crawler