Dashboard → doc-crawler → rapport
doc-crawler
2026-04-18 02:48:59
[CRAWL] DataSet_8 OCR batch 235 — EFTA00032292 à EFTA00032373
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-18T02:48:59.943Z
CRAWL REPORT — 2024-06-25
Batch: DataSet_8 OCR Batch 235 (EFTA00032292 à EFTA00032373) Agent: CRAWLER (modèle: llama-4-scout-17b-16e-instruct) Provider: Groq Responsabilité: Extraction OCR + métadonnées pour 30 documents.
DOCUMENTS TRAITÉS
1. EFTA00032292.pdf
- Dataset: DS8
- Type: correspondence (email + coordonnées)
- Pages: 1 (texte brut)
- Qualité texte: BONNE (OCR non nécessaire)
- Taille texte: 1 245 caractères
- Résumé: Document contenant une liste de contacts internationaux avec noms, numéros de téléphone, adresses email et adresses postales. Plusieurs individus sont associés à des entreprises ou institutions (ex: "S&S Capital", "Alphairvesiment Management"). Noms identifiés: Abby, Aldridge Saffron, Abousleiman Joanna, Adam Nick, Alexander Pam, Alaranti Giacomo, Agag Alejandro, Allan Paul, Allan Nick & Sarah, Albermarle Rufus & Sally, Althorp Charlie, Alun Jones Carella, Alun Jones Jeremy & Deborah, Amon Roberta & Maurice, Anastos Lisa, Anderson Lulu, Alvarez Vincente, Amon Mr Philippe, Appleby Robert & Alex, Arango Maile, Armstrong Arthur & Cathy, Arion Joaquin Fernandez de Cordoba, Ash Lorinda, Ashley & Allegra Hicks, Astor Viscount William, Bahrke Peter, Atkin Helene, Ashley Nick & Ari, Aznar Jose, Aron Herve & Marine, Assaf Charlotte & Vittorio. Lieux: Londres (SW1, SW3, SW10), New York (NY 10021, 10022), Madrid, Malaga, Hong Kong, Sydney, Paris. Montants: Non identifiés.
2. EFTA00032293.pdf
- Dataset: DS8
- Type: correspondence (email + coordonnées)
- Pages: 1 (texte brut)
- Qualité texte: BONNE (OCR non nécessaire)
- Taille texte: 1 189 caractères
- Résumé: Liste similaire de contacts avec des numéros de téléphone internationaux et adresses email. Plusieurs individus sont liés à des institutions financières ou juridiques (ex: "HSBC Investment Bank", "The Associated Group"). Noms identifiés: Baker Danny, Bakhtiar Shariar, Baldwin Alec, Bamford Sir Anthony & Lady C, Bannister Clive, Barnes Peter, Barnett Craig, Bastone Hillary, Batstone Tim & Natasha, Benson Steven, Bentinck Baron, Baumer Lorenzo, Beaumont Lord & Lady, Beckwith Tamara, Belzberg Lisa, Bernard Tara, Beraaruen Nicolas, Bismark Vanessa Von, Birchall Martyn, Bismarck Debbie & Bola Von, Bisson Jean Marc, Bjornlin Jean Paul, Blaine David, Black Conrad & Barbara, Blair Tony, Bloomberg Mike, Bolsgelin Edward de, Booth Mark & Lauren. Lieux: Londres (SW1, SW3), New York (NY 10003, 10022), Paris, Malaga, Sydney, Toronto. Montants: Non identifiés.
3. EFTA00032297.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 48 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
4. EFTA00032298.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 52 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
5. EFTA00032299.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 45 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
6. EFTA00032300.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 58 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
7. EFTA00032301.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 49 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
8. EFTA00032302.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 51 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
9. EFTA00032303.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 47 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
10. EFTA00032307.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 53 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
11. EFTA00032314.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 46 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
12. EFTA00032316.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 50 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
13. EFTA00032317.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 55 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
14. EFTA00032329.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 44 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
15. EFTA00032330.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 48 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
16. EFTA00032334.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 52 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
17. EFTA00032335.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 49 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
18. EFTA00032336.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 51 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
19. EFTA00032337.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 47 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
20. EFTA00032338.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 53 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
21. EFTA00032339.pdf
- Dataset: DS8
- Type: unknown (texte non structuré)
- Pages: 1 (texte brut)
- Qualité texte: MAUVAISE (OCR nécessaire)
- Taille texte: 46 caractères
- Résumé: Texte illisible ou corrompu. Contenu non exploitable sans OCR amélioré. Action: RETRY avec OCR haute précision.
**22. EFTA00
EpsteinFiles & Co — Doc Crawler