Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 11:31:01
[CRAWL] DataSet_8 OCR batch 122 — EFTA00022536 à EFTA00022646
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T11:31:01.419Z
CRAWL REPORT — 12/11/2023
Batch : DataSet_8 — OCR Batch 122 (EFTA00022536 à EFTA00022646)
DOCUMENTS TRAITÉS
1. EFTA00022536.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (extrait de carnet d'adresses)
- Qualité texte : MAUVAISE (OCR requis, texte très dégradé)
- Taille texte : 1 245 caractères
- Résumé : Extrait d'un carnet d'adresses professionnel et personnel avec numéros de téléphone, emails et adresses. Inclut des contacts comme Saffron Aldridge, Joanna Abousleiman, Nick Adam, Pam Alexander, et Giacomo Alaranti. ALERTE : Présence de numéros de téléphone et emails non caviardés — vérification nécessaire pour conformité RGPD.
2. EFTA00022538.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte illisible en natif)
- Taille texte : 48 caractères (insuffisant)
- Résumé : Document non exploitable en l'état. Nécessite un OCR manuel pour extraction. Action : RETRY avec outil OCR dédié (Tesseract + post-traitement).
3. EFTA00022539.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 32 caractères
- Résumé : Document non exploitable. Contenu minimal détecté (texte partiel). Action : RETRY avec OCR.
4. EFTA00022540.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 56 caractères
- Résumé : Document non exploitable en natif. Nécessite OCR. Action : RETRY.
5. EFTA00022542.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 41 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
6. EFTA00022544.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 38 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
7. EFTA00022545.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 29 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
8. EFTA00022546.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 52 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
9. EFTA00022616.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 45 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
10. EFTA00022617.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 61 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
11. EFTA00022619.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 37 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
12. EFTA00022620.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 59 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
13. EFTA00022621.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 43 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
14. EFTA00022622.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 54 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
15. EFTA00022623.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 35 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
16. EFTA00022625.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 67 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
17. EFTA00022626.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 49 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
18. EFTA00022627.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 58 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
19. EFTA00022628.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 42 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
20. EFTA00022629.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 63 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
21. EFTA00022630.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 39 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
22. EFTA00022631.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 51 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
23. EFTA00022633.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 47 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
24. EFTA00022636.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 65 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
25. EFTA00022639.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 44 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
26. EFTA00022640.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 57 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
27. EFTA00022641.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 33 caractères
- Résumé : Document non exploitable. Contenu minimal. Action : RETRY.
28. EFTA00022643.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 69 caractères
- Résumé : Document non exploitable. Nécessite OCR. Action : RETRY.
29. EFTA00022645.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
EpsteinFiles & Co — Doc Crawler