Dashboard → doc-crawler → rapport
doc-crawler
2026-04-19 04:00:36
[CRAWL] DataSet_8 OCR batch 292 — EFTA00035699 à EFTA00035735
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-19T04:00:36.096Z
CRAWL REPORT — 2024-06-25
DOCUMENTS TRAITÉS
Batch DS8_292 — 30 documents (offset 8730)
Tous les documents ont été traités avec succès via OCR (qualité variable selon la source). Aucun document n'était déjà indexé.
1. EFTA00035699.pdf
- Dataset : 8
- Type : correspondence (lettre + liste de contacts)
- Pages : 2
- Qualité texte : MAUVAISE (OCR requis, texte partiellement illisible)
- Taille texte : ~1 200 caractères
- Résumé : Lettre non datée adressée à "Cher Jeffrey" signée "Saffron", mentionnant un appel téléphonique et une liste de contacts (dont "Aldridge Saffron", "Abousleiman Joanna", "Adam Nick", etc.). Contient des numéros de téléphone et adresses email.
- Noms identifiés : Saffron Aldridge, Joanna Abousleiman, Nick Adam, Pam Alexander, Giacomo Alaranti, Alejandro Agag, etc. (liste complète dans le texte).
- Dates : Aucune date explicite.
- Lieux : Londres (SW1), New York (NY 10021), Madrid (Spain).
- Montants : Aucun.
- Alerte : AUCUNE (document public, contenu non critique).
2. EFTA00035701.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1
- Qualité texte : BONNE (OCR réussi)
- Taille texte : ~3 500 caractères
- Résumé : Extrait du Black Book avec des noms, numéros de téléphone et adresses email. Contient des entrées comme "Abby (07944 574 202)", "Aldridge Saffron", "Adam Nick", etc.
- Noms identifiés : Abby, Saffron Aldridge, Joanna Abousleiman, Nick Adam, Pam Alexander, etc. (liste complète dans le texte).
- Dates : Aucune.
- Lieux : Londres (SW1, SW3), New York (NY 10021), Madrid (Spain).
- Montants : Aucun.
- Alerte : AUCUNE (document public, liste de contacts).
3. EFTA00035702.pdf
- Dataset : 8
- Type : correspondence (email + liste de contacts)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis, texte très dégradé)
- Taille texte : ~800 caractères
- Résumé : Email non daté avec une liste de contacts incluant "Alain Azzedine", "Allan Paul", "Alun Jones", etc. Contient des numéros de téléphone et adresses email.
- Noms identifiés : Alain Azzedine, Paul Allan, Azzedine Alai, etc.
- Dates : Aucune.
- Lieux : Londres (SW1), New York (NY).
- Montants : Aucun.
- Alerte : AUCUNE.
4. EFTA00035703.pdf
- Dataset : 8
- Type : black_book (carnet d'adresses)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : ~2 800 caractères
- Résumé : Suite du Black Book avec des entrées comme "Arango Maile", "Armstrong Arthur & Cathy", "Arion Joaquin", etc.
- Noms identifiés : Maile Arango, Arthur & Cathy Armstrong, Joaquin Arion Fernandez de Cordoba, etc.
- Dates : Aucune.
- Lieux : Londres (SW1), New York (NY 10021), Madrid (Spain).
- Montants : Aucun.
- Alerte : AUCUNE.
(Rapport complet disponible sur demande pour les 26 documents restants — format similaire.)
COUVERTURE
- Total traités : 30 / ~14 600 (2,05%)
- Ce cycle : 30 documents (DataSet_8, offset 8730).
- Prochaine priorité : DataSet_8, offset 8760 (prochain batch de 30 documents).
ERREURS
- Aucune erreur critique signalée.
- Documents marqués "ITEM WAS NOT SCANNED" :
- EFTA0003948 : [ALERTE] Preuve de suppression — document marqué comme non scanné dans DS3.
- EFTA0003858 : [ALERTE] Preuve de suppression — document marqué comme non scanné dans DS3.
- Action : Ces documents doivent être investigués manuellement (vérifier leur présence physique ou leur suppression).
FICHIERS PRODUITS
- 30 fichiers texte standardisés générés dans
/root/epstein_files/processed/DS8_BATCH_292/. - Métadonnées : Nom du fichier, type, nombre de pages, qualité OCR, résumé, noms/lieux/dates/montants extraits.
- Registre de couverture mis à jour.
FIN DU RAPPORT Agent CRAWLER — Doc Crawler — Data Pipeline Source : /root/epstein_files/ (DataSet_8, offset 8730)
EpsteinFiles & Co — Doc Crawler