Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 06:49:15
[CRAWL] DataSet_8 OCR batch 1 — EFTA00010008 à EFTA00010117
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T06:49:15.576Z
CRAWL REPORT — 2024-06-20
DOCUMENTS TRAITÉS
EFTA00010008.pdf
- Dataset : 8
- Type : correspondence
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 1 245 caractères
- Résumé : Document de correspondance avec des numéros de téléphone et adresses email. Contient des noms comme "Abby", "Aldridge Saffron", "Abousleiman, Joanna", et des coordonnées associées.
- Entités extraites :
- Noms : Abby, Aldridge Saffron, Abousleiman Joanna, Adam Nick, Alexander Pam, Alaranti Giacomo, Agag Alejandro, Allan Paul, Allan Nick & Sarah, Albermarle Rufus & Sally, Althorp Charlie, Alun Jones Carella, Alun Jones Jeremy & Deborah, Amon Roberta & Maurice, Anastos Lisa, Anderson Lulu, Alvarez Senor Vincente, Amon Mr Philippe, Appleby Robert & Alex, Arango Maile, Armstrong Arthur & Cathy, Arion Joaquin Fernandez de Cordoba, Ash Lorinda, Ashley & Allegra Hicks, Astaire Mr Simon, Baddeley Jean, Bahrke Peter, Atkin Helene, Ashley Nick & Ari, Aznar Jose, Arion Fernando, Aron Herve & Marine, Arellano Victor, Assaf Charlotte & Vittorio.
- Téléphones : 07944 574 202, 0603 338 787, 00 331 40150061, 0207-7271006, 001 212-879-7653, 0207•221-3621, etc.
- Adresses : 19 Rue De Lille, 4 71 Idbrooke Rd London W11 3PD, 511 6th Ave New York NY 10011, etc.
- Emails : joannacheva!ier@hotmai!.c, saffval@aol.com, patexander@alexanderrogil.com, etc.
- Métadonnées : Document partiellement scanné, texte non exploitable sans OCR.
EFTA00010010.pdf
- Dataset : 8
- Type : black_book
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 1 892 caractères
- Résumé : Liste de contacts avec noms, numéros de téléphone, adresses et emails. Contient des entrées comme "Baker Danny", "Atkin Mike & Ami", "Bakhtiar Shariar", etc.
- Entités extraites :
- Noms : Baker Danny, Atkin Mike & Ami, Bakhtiar Shariar, Bamford Sir Anthony and Lady C, Bannister Clive, Baldwin Alec, Balliol College Oxford, Barnes Peter, Barnett Craig, Bastone Hillary, Balazs Andre, Batstone Tim Natasha, Benson Steven, Bentinck Baron, Baumer Lorenzo, Beaumont lord & Lady, Beckwith Tamara, Belzberg Lisa, Bernard Tara, Beraaruen Nicolas, Bismark Vanessa Von, Birchall Martyn, Bismarck Debbie & Bola Von, Bloomberg Mike, Bolsgelin Edward de, Booth Mark & Lauren.
- Téléphones : 001 917 647 9649, 0207-351 7973, 001 212 272 4012, etc.
- Adresses : 8 Canada Square London E74 SHQ U, 511 6th Ave New York NY 10022, etc.
- Emails : pb@arkwrighl.co.uk, hotersatifiao!.com, etc.
- Métadonnées : Liste de contacts partiellement scannée, nécessite OCR pour extraction complète.
EFTA00010016.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 589 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments de texte comme "EFTA00003390.txt (DS2)" et des numéros de série.
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL (vérification nécessaire).
EFTA00010017.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 421 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00004898.txt (DS3)" et des références à des fichiers TIF.
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL (vérification nécessaire).
EFTA00010019.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 387 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00005569.txt (DS3)" et des références à des fichiers JPG.
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL (vérification nécessaire).
EFTA00010020.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 298 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00005091.txt (DS3)" et des références à des fichiers TIF.
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL (vérification nécessaire).
EFTA00010021.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 312 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00005967.txt (DS4)" et des références à des numéros de suivi FedEx.
- Entités extraites :
- Numéros de suivi : 796271883447, 796271883448.
- Dates : 11/26/2021, 11/24/2021.
- Métadonnées : Document partiellement lisible. ACTION : RETRY (OCR nécessaire pour extraire les détails).
EFTA00010022.pdf
- Dataset : 8
- Type : financial_record
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 1 023 caractères
- Résumé : Facture de "WOOD TECHNOLOGY, INC." pour des services de menuiserie et métal. Contient des détails comme "DUST. NO.", "SHIPPED DATE", et des montants.
- Entités extraites :
- Montants : Non spécifiés (texte illisible sans OCR).
- Dates : Non spécifiées (texte illisible sans OCR).
- Entreprise : WOOD TECHNOLOGY, INC.
- Métadonnées : Facture partiellement scannée. ACTION : RETRY (OCR nécessaire pour extraire les détails financiers).
EFTA00010024.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 156 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00008457.txt (DS5)".
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL.
EFTA00010025.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 142 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00008419.txt (DS5)".
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL.
EFTA00010034.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 168 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00008514.txt (DS5)".
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL.
EFTA00010035.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 134 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00008892.txt (DS6)".
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL.
EFTA00010036.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 129 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00008892.txt (DS6)" et des références à "GRAND JURY".
- Entités extraites :
- Lieu : "9 East 71st Street, New York, New York".
- Adresse : "358 El Brillo W, Palm Beach, Florida".
- Autre adresse : "49 Zorro Ranch Road, Stanley, New Mexico".
- Métadonnées : Document partiellement lisible. ACTION : RETRY (OCR nécessaire pour extraire les détails).
EFTA00010037.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 118 caractères
- Résumé : Document non identifiable avec texte partiel. Contient des fragments comme "EFTA00007753.txt (DS4)".
- Entités extraites : Aucune entité exploitable.
- Métadonnées : Document illisible sans OCR avancé. ACTION : MANUAL.
EFTA00010040.pdf
- Dataset : 8
- Type : unknown
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 102 caractères
- Résumé : Document non identifiable avec texte partiel.
EpsteinFiles & Co — Doc Crawler