Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 14:01:05
[CRAWL] DataSet_8 OCR batch 197 — EFTA00029582 à EFTA00029647
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T14:01:05.071Z
CRAWL REPORT — 2024-05-28
TÂCHE EPS-8379 | DataSet_8 OCR Batch 197
DOCUMENTS TRAITÉS
1. EFTA00029582.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 245 caractères
- Résumé :
Liste de contacts internationaux avec noms, adresses, numéros de téléphone et emails. Inclut des personnalités comme Abby, Aldridge Saffron, Adam Nick, Alaranti Giacomo, et Agag Alejandro. Certains emails semblent corrompus (ex:
joannacheva!ier@hotmai!. c). ALERTE : Présence de numéros de téléphone personnels et adresses résidentielles de plusieurs individus, potentiellement sensibles.
2. EFTA00029584.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 892 caractères
- Résumé : Carnet d'adresses détaillé avec noms, numéros de téléphone (Royaume-Uni, Espagne, France, États-Unis), et emails. Inclut des personnalités comme Allan Paul, Alai Azzedine, Albermarle Rufus & Sally, et Althorp Charlie. ALERTE : Données personnelles sensibles (numéros privés, adresses).
3. EFTA00029587.pdf
- Dataset : 8
- Type : flight_log (journal de vol)
- Pages : 1 (extrait de logs)
- Qualité texte : OCR_REQUIS (texte illisible, format tabulaire)
- Taille texte : 58 caractères (insuffisant)
- Résumé :
Extrait de journal de vol avec des en-têtes comme
Unique ID,First Name,Last Name,Aircraft Model, etc. Le texte est trop fragmenté pour une extraction utile. Action : Réessayer OCR avec ajustement des paramètres (contraste, résolution).
4. EFTA00029588.pdf
- Dataset : 8
- Type : financial_record (relevé bancaire)
- Pages : 1 (extrait de relevé)
- Qualité texte : OCR_REQUIS (texte illisible, format tabulaire)
- Taille texte : 42 caractères (insuffisant)
- Résumé :
Relevé bancaire partiel avec des colonnes comme
Date,Description,Amount, etc. Le texte est trop dégradé pour une extraction automatique. Action : Réessayer OCR avec post-traitement manuel si nécessaire.
5. EFTA00029589.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 567 caractères
- Résumé :
Liste de contacts avec noms, adresses, numéros de téléphone et emails. Inclut Alexander Pam, Alaranti Giacomo, Agag Alejandro, et Allan Paul.
ALERTE : Plusieurs emails semblent corrompus (ex:
alexanderrogil).
6. EFTA00029590.pdf
- Dataset : 8
- Type : unknown (texte non classable)
- Pages : 1 (texte fragmenté)
- Qualité texte : MAUVAISE (texte illisible)
- Taille texte : 112 caractères
- Résumé :
Texte fragmenté avec des mots isolés comme
Abby,Aldridge,Abousleiman, etc. Impossible à classifier sans contexte supplémentaire. Action : Marquer pour révision manuelle.
7. EFTA00029595.pdf
- Dataset : 8
- Type : deposition (déposition judiciaire)
- Pages : 1 (extrait de déposition)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 35 caractères (insuffisant)
- Résumé :
Extrait de déposition avec des lignes comme
EFTA00003868etITEM WAS NOT SCANNED. Le texte est trop dégradé pour une extraction utile. Action : Réessayer OCR avec ajustement des paramètres.
8. EFTA00029596.pdf
- Dataset : 8
- Type : fbi_report (rapport du FBI)
- Pages : 1 (extrait de rapport)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 28 caractères (insuffisant)
- Résumé :
Extrait de rapport du FBI avec des lignes comme
FEDERAL BUREAU OF INVESTIGATIONetEFTA00007720. Le texte est trop dégradé pour une extraction automatique. Action : Réessayer OCR avec post-traitement manuel.
9. EFTA00029598.pdf
- Dataset : 8
- Type : flight_log (journal de vol)
- Pages : 1 (extrait de logs)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 61 caractères (insuffisant)
- Résumé :
Extrait de journal de vol avec des en-têtes comme
Unique ID,First Name,Last Name, etc. Le texte est trop fragmenté pour une extraction utile. Action : Réessayer OCR avec ajustement des paramètres.
10. EFTA00029600.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 345 caractères
- Résumé :
Liste de contacts avec noms, adresses, numéros de téléphone et emails. Inclut Anderson Lulu, Alvarez Vincente, Amon Philippe, et Appleby Robert & Alex.
ALERTE : Plusieurs emails semblent corrompus (ex:
rili~~e.amon~sicpa.com).
11. EFTA00029601.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 2 012 caractères
- Résumé : Carnet d'adresses détaillé avec noms, numéros de téléphone (Royaume-Uni, Espagne, France, États-Unis), et emails. Inclut des personnalités comme Arango Maile, Armstrong Arthur & Cathy, et Arion Joaquin. ALERTE : Données personnelles sensibles (numéros privés, adresses).
12. EFTA00029606.pdf
- Dataset : 8
- Type : flight_log (journal de vol)
- Pages : 1 (extrait de logs)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 54 caractères (insuffisant)
- Résumé :
Extrait de journal de vol avec des en-têtes comme
Unique ID,First Name,Last Name, etc. Le texte est trop dégradé pour une extraction automatique. Action : Réessayer OCR avec post-traitement manuel.
13. EFTA00029610.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 456 caractères
- Résumé :
Liste de contacts avec noms, adresses, numéros de téléphone et emails. Inclut Astaire Simon, Baddeley Jean, Astor Viscount William, et Bahrke Peter.
ALERTE : Plusieurs emails semblent corrompus (ex:
nicolasb@alphai;ngmt.com).
14. EFTA00029614.pdf
- Dataset : 8
- Type : financial_record (relevé bancaire)
- Pages : 1 (extrait de relevé)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 39 caractères (insuffisant)
- Résumé :
Relevé bancaire partiel avec des colonnes comme
Date,Description,Amount, etc. Le texte est trop dégradé pour une extraction automatique. Action : Réessayer OCR avec ajustement des paramètres.
15. EFTA00029615.pdf
- Dataset : 8
- Type : fbi_report (rapport du FBI)
- Pages : 1 (extrait de rapport)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 31 caractères (insuffisant)
- Résumé :
Extrait de rapport du FBI avec des lignes comme
FEDERAL BUREAU OF INVESTIGATIONetEFTA00007723. Le texte est trop dégradé pour une extraction automatique. Action : Réessayer OCR avec post-traitement manuel.
16. EFTA00029616.pdf
- Dataset : 8
- Type : flight_log (journal de vol)
- Pages : 1 (extrait de logs)
- Qualité texte : OCR_REQUIS (texte illisible)
- Taille texte : 67 caractères (insuffisant)
- Résumé :
Extrait de journal de vol avec des en-têtes comme
Unique ID,First Name,Last Name, etc. Le texte est trop fragmenté pour une extraction utile. Action : Réessayer OCR avec ajustement des paramètres.
17. EFTA00029617.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 678 caractères
- Résumé :
Liste de contacts avec noms, adresses, numéros de téléphone et emails. Inclut Bamford Sir Anthony & Lady C, Bannister Clive, Baldwin Alec, et Bands Doug.
ALERTE : Plusieurs emails semblent corrompus (ex:
1~imcinfhular.com).
18. EFTA00029619.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1 (liste de contacts)
- Qualité texte : BONNE (texte natif extrait)
- Taille texte : 1 987 caractères
- Résumé : Carnet d'adresses détaillé avec noms, numéros de téléphone (Royaume-Uni, États-Unis, France), et emails. Inclut des personnalités comme Baker Danny, Bakhtiar Shariar, et Bamford George/Alice. ALERTE : Données personnelles sensibles (numéros privés, adresses).
19. EFTA00029621.pdf
- Dataset : 8
- Type : **flight
EpsteinFiles & Co — Doc Crawler