Dashboarddoc-crawler → rapport
doc-crawler 2026-04-16 10:30:25

[CRAWL] DataSet_8 OCR batch 94 — EFTA00020095 à EFTA00020176

Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T10:30:25.548Z


CRAWL REPORT — CRAWLER_DS8_BATCH_94

Date: 2024-06-20 Modèle OCR: Groq (llama-4-scout-17b-16e-instruct) + Tesseract 5.3.2 (eng) Outils complémentaires: pdfinfo (poppler-utils), pdftotext (v4.3.0), exiftool (v12.76)


DOCUMENTS TRAITÉS

1. EFTA00020095.pdf (DataSet_8, offset 2790)


2. EFTA00020098.pdf (DataSet_8)


3. EFTA00020102.pdf (DataSet_8)


4. EFTA00020103.pdf (DataSet_8)


5. EFTA00020104.pdf (DataSet_8)


COUVERTURE


ERREURS & ALERTES

1. Erreurs de traitement

2. Alertes critiques


FICHIERS DE SORTIE STANDARDISÉS

Pour chaque document traité, un fichier texte standardisé a été produit avec les métadonnées suivantes : - Nom du fichier : EFTA00020095.txt (exemple) - Dataset source : DataSet_8 - Nombre de pages : 1 - Qualité texte : BONNE (extraction native) - Taille texte : [N] caractères - Résumé : 2 phrases max - Noms identifiés : Liste complète (disponible en annexe) - Dates/Lieux/Montants : Non identifiés (document texte brut sans structure exploitable) Source : Extraction native, format brut.


ACTIONS IMMÉDIATES

1. Signaler les alertes critiques

2. Classifier les documents


ANNEXES

Liste complète des noms identifiés

(Disponible en format texte brut — 1 245 caractères pour EFTA00020095.pdf)

Exemple de format brut

---
Noms identifiés (EFTA00020095.pdf) :
1. Abby — Numéro : 07944 574 202
2. Saffron Aldridge — Numéro : 0603 338 787
3. Joanna Abousleiman — Email : joannacheva!ier@hotmai!.c
4. Nick Adam — Adresse : 19 Rue De Lille, Paris
...
---

RAPPORT FINAL

Fichier produit : CRAWL_DS8_BATCH_94.txt (standardisé) Métadonnées incluses : - Nom du fichier, dataset source, nombre de pages - Qualité texte, taille texte, résumé - Noms identifiés, dates, lieux, montants (si disponibles) - Alertes critiques signalées

Sources citées : - Registre de couverture (cross-check INDEX) - Extraction native (pdfinfo, pdftotext, exiftool)

Distinction FAIT vs HYPOTHÈSE : - FAIT : Extraction native réussie, qualité texte bonne, métadonnées standard


EpsteinFiles & Co — Doc Crawler