Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 07:01:20
[CRAWL] DataSet_8 OCR batch 337 — EFTA00038234 à EFTA00038298
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T07:01:20.448Z
CRAWL REPORT — 2024-05-28
CRAWL_DS8_BATCH_337
DOCUMENTS TRAITÉS
1. EFTA00038234.pdf
- Dataset : 8
- Type : Black Book (Liste de contacts)
- Pages : 1 (extraction directe)
- Qualité texte : BONNE (texte natif exploitable)
- Taille texte : 1 245 caractères
- Résumé :
Liste partielle de contacts avec noms, numéros de téléphone et adresses email. Inclut des individus comme Abby (07944 574 202), Aldridge Saffron, Adam, Nick (19 Rue De Lille, Paris), et Alexander Pam.
Contient des emails suspects (ex:
joannacheva!ier@hotmai!.c— probablement une erreur de saisie pourjoannachevaier@hotmail.com).
2. EFTA00038235.pdf
- Dataset : 8
- Type : Black Book (Liste de contacts)
- Pages : 1 (extraction directe)
- Qualité texte : BONNE
- Taille texte : 1 872 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone (UK, US, international) et emails. Exemples :
- Alai Azzedine (001 206 355 5777, paul@vuJcan.com)
- Albermarle, Rufus & Sally (New York, Londres)
- Amon, Roberta & Maurice (New York)
- Anastos, Lisa (New York)
Observation : Certains emails semblent corrompus (ex:
alexanderrogilau lieu d'une adresse complète).
3. EFTA00038250.pdf
- Dataset : 8
- Type : Inconnu (Format non standard, mélange de texte et de symboles)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 48 caractères (texte natif insuffisant)
- Résumé : Contenu illisible en l'état. Nécessite un OCR manuel pour extraire les noms/dates. Action : À relancer avec un outil d'OCR dédié (ex: Tesseract avec post-traitement).
4. EFTA00038251.pdf
- Dataset : 8
- Type : Correspondance (Email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 987 caractères
- Résumé : Email partiel avec objet et corps de message. Contient des références à des noms :
- Baker Danny (001 917 647 9649)
- Atkin, Mike & Ami
- Bakhtiar, Shariar Contexte : Discussion professionnelle (non caviardée).
5. EFTA00038253.pdf
- Dataset : 8
- Type : Inconnu (Format image/PDF scanné)
- Pages : 1
- Qualité texte : OCR_REQUIS (Texte natif vide)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte extractible. Nécessite OCR pour identifier le contenu (noms, dates, lieux). Exemple de contenu attendu : Factures, contrats, ou listes.
6. EFTA00038255.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 65 caractères
- Résumé : Contenu partiellement corrompu. Nécessite révision manuelle pour déterminer le type (financier ? juridique ?).
7. EFTA00038256.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte extractible. Priorité OCR.
8. EFTA00038258.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 52 caractères
- Résumé : Contenu illisible. À classer en "unknown" après vérification manuelle.
9. EFTA00038259.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Nécessite OCR.
10. EFTA00038260.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 41 caractères
- Résumé : Contenu trop court pour classification. À ignorer ou relancer.
11. EFTA00038261.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Priorité OCR.
12. EFTA00038262.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 38 caractères
- Résumé : Contenu illisible. À classer en "unknown".
13. EFTA00038263.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Nécessite OCR.
14. EFTA00038264.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 55 caractères
- Résumé : Contenu partiellement corrompu. À vérifier manuellement.
15. EFTA00038265.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Priorité OCR.
16. EFTA00038268.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 49 caractères
- Résumé : Contenu illisible. À ignorer.
17. EFTA00038270.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Nécessite OCR.
18. EFTA00038272.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 61 caractères
- Résumé : Contenu partiellement exploitable. À classer en "unknown".
19. EFTA00038275.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Priorité OCR.
20. EFTA00038276.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 53 caractères
- Résumé : Contenu illisible. À ignorer.
21. EFTA00038277.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Nécessite OCR.
22. EFTA00038287.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 44 caractères
- Résumé : Contenu trop court. À ignorer.
23. EFTA00038288.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Priorité OCR.
24. EFTA00038290.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 57 caractères
- Résumé : Contenu partiellement exploitable. À classer en "unknown".
25. EFTA00038293.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Nécessite OCR.
26. EFTA00038294.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
- Pages : 1
- Qualité texte : MAUVAISE
- Taille texte : 42 caractères
- Résumé : Contenu illisible. À ignorer.
27. EFTA00038295.pdf
- Dataset : 8
- Type : Inconnu (Format image)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné. Priorité OCR.
28. EFTA00038296.pdf
- Dataset : 8
- Type : Inconnu (Format non standard)
-
Pages : 1
EpsteinFiles & Co — Doc Crawler