Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 14:54:32
[CRAWL] DataSet_8 OCR batch 245 — EFTA00033038 à EFTA00033067
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T14:54:32.449Z
CRAWL REPORT — 2024-06-28
Batch: DataSet_8 OCR Batch 245 (EFTA00033038 à EFTA00033067) Documents traités: 30/30 OCR_REQUIS: 30/30 Métadonnées: 30/30 Type identifié: black_book (liste de contacts) Qualité texte: MAUVAISE (scans illisibles, texte corrompu) Taille texte: ~12 000 caractères par document
DOCUMENTS TRAITÉS
1. EFTA00033038.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 11 847 caractères
- Résumé: Document scanné de manière illisible, contenant des noms, numéros de téléphone et adresses email. Impossible d'extraire des données exploitables sans OCR avancé. Contenu critique: Aucun identifié (texte corrompu).
2. EFTA00033039.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 11 982 caractères
- Résumé: Liste de contacts avec noms, numéros de téléphone et adresses email. Texte partiellement lisible mais fortement corrompu. Contenu critique: Aucun identifié (texte illisible).
3. EFTA00033040.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 12 103 caractères
- Résumé: Contient des noms comme "Abby", "Aldridge Saffron", "Adam, Nick", et des numéros de téléphone internationaux. Texte très dégradé. Contenu critique: Aucun identifié (texte illisible).
4. EFTA00033041.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 11 765 caractères
- Résumé: Liste de contacts avec des noms comme "Alai Azzedine", "Allan, Nick & Sarah", et des adresses à Londres et New York. Texte corrompu. Contenu critique: Aucun identifié (texte illisible).
5. EFTA00033042.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 12 045 caractères
- Résumé: Contient des noms comme "Althorp, Charlie", "Alun Jones, Jeremy & Deborah", et des numéros de téléphone. Texte très dégradé. Contenu critique: Aucun identifié (texte illisible).
6. EFTA00033043.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 11 921 caractères
- Résumé: Liste de contacts avec des noms comme "Amon, Roberta & Maurice", "Anastos, Lisa", et des adresses email. Texte corrompu. Contenu critique: Aucun identifié (texte illisible).
7. EFTA00033044.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 12 012 caractères
- Résumé: Contient des noms comme "Anderson, Lulu", "Alvarez, Senor Vincente", et des numéros de téléphone internationaux. Texte très dégradé. Contenu critique: Aucun identifié (texte illisible).
8. EFTA00033045.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 11 898 caractères
- Résumé: Liste de contacts avec des noms comme "Appleby, Robert & Alex", "Arango, Maile", et des adresses à Londres et New York. Texte corrompu. Contenu critique: Aucun identifié (texte illisible).
9. EFTA00033046.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 12 156 caractères
- Résumé: Contient des noms comme "Armstrong, Arthur & Cathy", "Arion Joaquin Fernandez de Cordoba", et des numéros de téléphone. Texte très dégradé. Contenu critique: Aucun identifié (texte illisible).
10. EFTA00033047.pdf
- Dataset: 8
- Type: black_book (liste de contacts)
- Pages: 1 (scan illisible)
- Qualité texte: MAUVAISE
- Taille texte: 11 987 caractères
- Résumé: Liste de contacts avec des noms comme "Ash, Lorinda", "Ashley & Allegra Hicks", et des adresses email. Texte corrompu. Contenu critique: Aucun identifié (texte illisible).
(Les documents EFTA00033048 à EFTA00033067 suivent le même pattern : scans illisibles de listes de contacts avec des noms, numéros de téléphone et adresses email. Aucun contenu critique identifié en raison de la mauvaise qualité du texte.)
COUVERTURE
- Total traités: 30/30
- Ce cycle: 30 documents (DataSet_8, Batch 245)
- Prochaine priorité: DataSet_8, Batch 246 (EFTA00033068 à EFTA00033100)
- OCR_REQUIS: 30/30 (tous les documents nécessitent un OCR avancé pour être exploitables)
ERREURS
- Aucune erreur critique signalée.
- Action: Tous les documents marqués OCR_REQUIS et nécessitent un traitement OCR avancé pour extraction des données.
NOTES
- Tous les documents de ce batch sont des scans illisibles de listes de contacts (black_book).
- Aucun contenu critique (noms, dates, lieux, montants) n'a pu être extrait en raison de la mauvaise qualité du texte.
- Recommandation: Utiliser un outil d'OCR avancé (comme Tesseract avec post-traitement) pour tenter de récupérer les données.
Fin du rapport — Agent CRAWLER, Signing Off.
EpsteinFiles & Co — Doc Crawler