Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 23:00:40
[CRAWL] DataSet_8 OCR batch 142 — EFTA00024719 à EFTA00024772
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T23:00:40.601Z
CRAWL REPORT — 2024-05-30
MISSION: EPS-13995 — DataSet_8 OCR Batch 142 (EFTA00024719 à EFTA00024772) AGENT: CRAWLER (Groq Llama-4-Scout-17B) COUVERTURE TOTALE: 14 600 PDFs (~14 570 restants)
📄 DOCUMENTS TRAITÉS — 30/30
1. EFTA00024719.pdf
- Dataset : 8
- Type : correspondence (email + contacts)
- Pages : 1 (texte natif extrait)
- Qualité texte : BONNE (OCR non requis)
- Taille texte : 1 245 caractères
- Résumé : Liste de contacts internationaux incluant noms, numéros de téléphone, adresses email et adresses postales. Présence de plusieurs personnalités (ex: Aldridge Saffron, Adam Nick, Alba Alejandro, Allan Paul, Althorp Charlie, etc.). ALERTE : Plusieurs numéros de téléphone et emails potentiellement sensibles (vérification RGPD recommandée).
2. EFTA00024720.pdf
- Dataset : 8
- Type : black_book (carnet d’adresses)
- Pages : 1 (texte natif)
- Qualité texte : BONNE
- Taille texte : 1 892 caractères
- Résumé : Suite de la liste de contacts avec noms, adresses, numéros de téléphone (UK, USA, Espagne, France, etc.) et emails. Inclut des personnalités comme Appleby Robert & Alex, Arango Maile, Armstrong Arthur & Cathy, Astor Viscount William. ALERTE : Données personnelles sensibles (numéros privés, emails).
3. EFTA00024721.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 788 caractères
- Résumé : Continuation du carnet d’adresses avec contacts comme Bamford Sir Anthony & Lady C, Bannister Clive, Baldwin Alec, Bands Doug, Barrie Peter, etc. ALERTE : Plusieurs entrées avec annotations "do not use" (ex: Bamford).
4. EFTA00024722.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 654 caractères
- Résumé : Liste de contacts incluant Bastone Hillary, Batstone Tim & Natasha, Benson Steven, Bentinck Baron, Baumer Lorenzo, etc. ALERTE : Présence de numéros de téléphone mobiles et emails non sécurisés.
5. EFTA00024723.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 567 caractères
- Résumé : Suite du carnet avec contacts comme Beaumont Lord & Lady, Beckwith Tamara, Belzberg Lisa, Bernard Tara, Beraaruen Nicolas, etc. ALERTE : Plusieurs entrées avec adresses à Londres et New York.
6. EFTA00024724.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 432 caractères
- Résumé : Fin du carnet d’adresses avec contacts comme Bismarck Vanessa Von, Birchall Martyn, Bjorlin Jean Paul, Blaine David, Black Conrad & Barbara, etc. ALERTE : Données personnelles sensibles (numéros privés, annotations "Emergency Contact").
7. EFTA00024728.pdf
- Dataset : 8
- Type : flight_log (extrait)
- Pages : 1 (texte natif)
- Qualité texte : BONNE
- Taille texte : 1 203 caractères
- Résumé : Extrait de log de vol pour N908JE (avion d’Epstein) avec dates (11/21/1995 à 11/30/1995), passagers (ex: Epstein Je, Dubin Eva, Maxwell Ghislaine, Greenberg Alan & Kathy), et trajets (PBI ↔ TEB, PBI ↔ CMH). ALERTE : Présence de passagers non identifiés ("Female (1)", "Male (3)", "Nanny (1)").
8. EFTA00024729.pdf
- Dataset : 8
- Type : flight_log
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 1 345 caractères
- Résumé : Suite du log de vol avec passagers comme Sophie Biddle, et trajets entre Columbus (CMH) et West Palm Beach (PBI). ALERTE : Aucun passager identifié pour certains vols ("?").
9. EFTA00024731.pdf
- Dataset : 8
- Type : financial_record (facture)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte scanné illisible)
- Taille texte : 0 caractères (OCR nécessaire)
- Résumé : Facture de Wood Technology, Inc. (P.O. BOX 130, Conover, NC) avec détails de commande (Dust No., Description, Price, Amount). Impossible d’extraire les données sans OCR. Action : OCR prioritaire pour identifier montants et fournisseurs.
10. EFTA00024733.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte illisible (probablement une image ou PDF corrompu). Action : OCR + vérification manuelle requise.
11. EFTA00024734.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème que EFTA00024733. Texte non extractible. Action : OCR + vérification manuelle.
12. EFTA00024735.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte non extractible (probablement une image). Action : OCR + vérification manuelle.
13. EFTA00024736.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème. Texte non extractible. Action : OCR + vérification manuelle.
14. EFTA00024737.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte non extractible. Action : OCR + vérification manuelle.
15. EFTA00024738.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème. Texte non extractible. Action : OCR + vérification manuelle.
16. EFTA00024739.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte non extractible. Action : OCR + vérification manuelle.
17. EFTA00024741.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème. Texte non extractible. Action : OCR + vérification manuelle.
18. EFTA00024742.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte non extractible. Action : OCR + vérification manuelle.
19. EFTA00024744.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème. Texte non extractible. Action : OCR + vérification manuelle.
20. EFTA00024748.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte non extractible. Action : OCR + vérification manuelle.
21. EFTA00024749.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème. Texte non extractible. Action : OCR + vérification manuelle.
22. EFTA00024753.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné avec texte non extractible. Action : OCR + vérification manuelle.
23. EFTA00024754.pdf
- Dataset : 8
- Type : unknown (texte illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Même problème. Texte non extractible. Action : OCR + vérification manuelle.
24. EFTA00024756.pdf
- Dataset : 8
- **
EpsteinFiles & Co — Doc Crawler