Dashboard → doc-crawler → rapport
doc-crawler
2026-04-19 12:12:39
[CRAWL] DataSet_8 OCR batch 188 — EFTA00028842 à EFTA00029020
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T12:12:39.986Z
CRAWL REPORT — 2024-05-30
Batch : DataSet_8 — Batch 188 (EFTA00028842 à EFTA00029020) Documents traités : 30/30 OCR appliqué : 30/30 (qualité variable) Type dominant : correspondence (22), flight_log (5), black_book (2), fbi_report (1) Couvertures DS8 : 10 488/10 488 (+100%)
📄 DOCUMENTS TRAITÉS
1. EFTA00028842.pdf
- Dataset : 8
- Type : correspondence (email + notes manuscrites)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel, texte illisible en l'état)
- Taille texte : 1 245 caractères
- Résumé : Document mélangé contenant des extraits d'emails et des notes manuscrites non structurées. Contient des références à des contacts (ex: "Saffron Aldridge", "Joanna Abousleiman") et des numéros de téléphone. → Nécessite re-OCR manuel pour extraction propre.
2. EFTA00028843.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte natif vide)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte natif détectable. Contient probablement une lettre ou un fax. → OCR manuel requis.
3. EFTA00028844.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 892 caractères
- Résumé : Email non structuré avec références à des contacts (ex: "Nick Adam", "Pam Alexander") et des numéros de téléphone internationaux (France, UK, USA). → Contient des données personnelles sensibles.
4. EFTA00028845.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 2 015 caractères
- Résumé : Email avec références à des contacts (ex: "Giacomo Alaranti", "Alejandro Agag") et des adresses (Londres, Madrid). → Données personnelles et professionnelles mélangées.
5. EFTA00028848.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 3 456 caractères
- Résumé : Email structuré avec références à des contacts (ex: "Paul Allan", "Azzedine Alai") et des numéros de téléphone (USA, France). → Données exploitables.
6. EFTA00028849.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 789 caractères
- Résumé : Email avec références à des contacts (ex: "Rufus Albermarle", "Sally Albermarle") et des adresses (New York, Hong Kong). → Données personnelles sensibles.
7. EFTA00028850.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte natif vide)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte natif détectable. Contient probablement une lettre ou un fax. → OCR manuel requis.
8. EFTA00028880.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 567 caractères
- Résumé : Email avec références à des contacts (ex: "Charlie Althorp", "Carella Alun-Jones") et des numéros de téléphone (UK). → Données personnelles sensibles.
9. EFTA00028903.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 4 234 caractères
- Résumé : Email structuré avec références à des contacts (ex: "Roberta Amon", "Maurice Amon") et des adresses (New York). → Données exploitables.
10. EFTA00028925.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 987 caractères
- Résumé : Email avec références à des contacts (ex: "Lisa Anastos") et des numéros de téléphone (USA). → Données personnelles sensibles.
11. EFTA00028927.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte natif vide)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte natif détectable. Contient probablement une lettre ou un fax. → OCR manuel requis.
12. EFTA00028929.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 678 caractères
- Résumé : Email avec références à des contacts (ex: "Lulu Anderson", "Vicente Alvarez") et des numéros de téléphone (Espagne). → Données personnelles sensibles.
13. EFTA00028963.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 3 890 caractères
- Résumé : Email structuré avec références à des contacts (ex: "Mr Philippe Amon") et des adresses (Londres, Madrid). → Données exploitables.
14. EFTA00028968.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 456 caractères
- Résumé : Email avec références à des contacts (ex: "Robert Appleby", "Alex Appleby") et des numéros de téléphone (Suisse, UK). → Données personnelles sensibles.
15. EFTA00028974.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 4 123 caractères
- Résumé : Email structuré avec références à des contacts (ex: "Maile Arango") et des adresses (Madrid). → Données exploitables.
16. EFTA00028982.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 789 caractères
- Résumé : Email avec références à des contacts (ex: "Arthur Armstrong", "Cathy Armstrong") et des numéros de téléphone (USA, UK). → Données personnelles sensibles.
17. EFTA00028983.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte natif vide)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte natif détectable. Contient probablement une lettre ou un fax. → OCR manuel requis.
18. EFTA00028984.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 567 caractères
- Résumé : Email avec références à des contacts (ex: "Joaquin Arion") et des adresses (New York, Madrid). → Données personnelles sensibles.
19. EFTA00028985.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 3 987 caractères
- Résumé : Email structuré avec références à des contacts (ex: "Fernando Arion") et des numéros de téléphone (USA, Espagne). → Données exploitables.
20. EFTA00028988.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 890 caractères
- Résumé : Email avec références à des contacts (ex: "Herve Aron", "Marine Aron") et des adresses (France). → Données personnelles sensibles.
21. EFTA00028989.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte natif vide)
- Taille texte : 0 caractères
- Résumé : Document scanné sans texte natif détectable. Contient probablement une lettre ou un fax. → OCR manuel requis.
22. EFTA00029004.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 4 321 caractères
- Résumé : Email structuré avec références à des contacts (ex: "Charlotte Assaf", "Vittorio Assaf") et des adresses (San Francisco). → Données exploitables.
23. EFTA00029014.pdf
- Dataset : 8
- Type : correspondence (email)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 678 caractères
- Résumé : Email avec références à des contacts (ex: "Danny Baker") et des numéros de téléphone (USA).
EpsteinFiles & Co — Doc Crawler