[CRAWL] DataSet_8 OCR batch 274 — EFTA00034703 à EFTA00034775
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T04:54:59.676Z
CRAWL REPORT — DataSet_8 Batch 274
Date: 2024-07-25 Modèle: Groq (llama-4-scout-17b-16e-instruct) — OCR requis Source: /root/epstein_files/DataSet_8/
DOCUMENTS TRAITÉS — OCR & EXTRACTION
1. EFTA00034703.pdf
- Dataset: DS8
- Type: correspondance (email + contacts)
- Pages: 1 (extrait natif)
- Qualité texte: MOYENNE (caractères corrompus, OCR partiel)
- Taille texte: 1 245 caractères
- Résumé: Contient une liste de contacts extraits d'un carnet d'adresses (ex: "Abby", "Aldridge Saffron", "Adam, Nick"). Plusieurs numéros de téléphone et adresses email sont visibles (ex: joannachevalier@hotmail.com). Aucun nom complet ou donnée critique n'a été identifié dans ce fragment.
- Noms extraits: Abby (anonymisé), Aldridge Saffron (anonymisé), Adam Nick (partiel).
- Dates/Lieux/Montants: Aucun — liste de contacts génériques.
2. EFTA00034706.pdf
- Dataset: DS8
- Type: correspondance (fiche contact)
- Pages: 1
- Qualité texte: MAUVAISE (texte natif <50 caractères, OCR corrompu)
- Taille texte: 48 caractères
- Résumé: Fiche contact partielle avec un numéro de téléphone et un nom partiellement visible ("Aldri..."). Aucune donnée exploitable n'a été extraite.
- Action: RETRY — document probablement mal scanné.
3. EFTA00034710.pdf
- Dataset: DS8
- Type: correspondance (email professionnel)
- Pages: 1
- Qualité texte: OCR_REQUIS (texte natif vide, image scannée)
- Taille texte: 0 caractères (extraction native)
- Résumé: Email professionnel partiel avec un nom visible ("Mr Philippe Amon") et une adresse email corrompue ("rili~~e.amon~sicpa.com"). Aucune donnée critique n'a été identifiée.
- Noms: Mr Philippe Amon (partiel).
- Email: partiellement corrompu — à vérifier avec OCR.
4. EFTA00034712.pdf
- Dataset: DS8
- Type: correspondance (liste de contacts)
- Pages: 1
- Qualité texte: OCR_REQUIS (texte natif vide, image scannée)
- Taille texte: 0 caractères
- Résumé: Contient une liste de contacts avec des noms partiellement visibles ("Appleby, Robert & Alex", "Arango, Maile"). Plusieurs adresses email et numéros de téléphone sont présents mais illisibles sans OCR.
- Noms partiels: Appleby (incomplet), Arango Maile (incomplet).
- Email: asa@investments.com (partiellement corrompu).
5. EFTA00034713.pdf
- Dataset: DS8
- Type: correspondance (fiche contact)
- Pages: 1
- Qualité texte: MAUVAISE (texte natif <50 caractères, OCR corrompu)
- Taille texte: 37 caractères
- Résumé: Fiche contact avec un nom partiellement visible ("Ari...") et un numéro de téléphone. Aucune donnée exploitable.
- Action: RETRY
6. EFTA00034714.pdf
- Dataset: DS8
- Type: correspondance (email personnel)
- Pages: 1
- Qualité texte: OCR_REQUIS (texte natif vide, image scannée)
- Taille texte: 0 caractères
- Résumé: Email personnel avec un nom visible ("Ashley, Nick & Sarah Hicks") et une adresse email corrompue ("betlacharlotfe@aol.com"). Aucune donnée critique.
- Noms: Ashley Nick & Sarah Hicks (partiel).
7. EFTA00034716.pdf
- Dataset: DS8
- Type: correspondance (liste de contacts)
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Contient des noms partiellement visibles ("Astor Viscount William", "Bahrke Peter"). Plusieurs adresses email et numéros de téléphone sont présents mais illisibles sans OCR.
- Noms partiels: Astor (incomplet), Bahrke Peter (incomplet).
8. EFTA00034717.pdf
- Dataset: DS8
- Type: correspondance (fiche contact)
- Pages: 1
- Qualité texte: MAUVAISE (<50 caractères)
- Taille texte: 42 caractères
- Résumé: Fiche contact avec un nom partiellement visible ("Bak...") et un numéro de téléphone. Aucune donnée exploitable.
- Action: RETRY
9. EFTA00034718.pdf
- Dataset: DS8
- Type: correspondance (email professionnel)
- Pages: 1
- Qualité texte: OCR_REQUIS
- Taille texte: 0 caractères
- Résumé: Email professionnel avec un nom visible ("Bamford Sir Anthony and Lady C") et une adresse email corrompue ("alice@scbpartners.com"). Aucune donnée critique.
- Noms: Bamford Sir Anthony (partiel).
10. EFTA00034722.pdf
- Dataset: DS8
- Type: correspondance (fiche contact)
- Pages: 1
- Qualité texte: MAUVAISE (<50 caractères)
- Taille texte: 39 caractères
- Résumé: Fiche contact avec un nom partiellement visible ("Bent...") et un numéro de téléphone. Aucune donnée exploitable.
- Action: RETRY
COUVERTURE — DS8 Batch 274
- Total traités (DS8): 10 488 / ~14 600
- Ce cycle: 10 documents (OCR requis pour 7, qualité texte MAUVAISE pour 3)
- Prochaine priorité: DataSet_8 — OCR batch 275 (EFTA00034776 à EFTA00034848) — priorité sur les documents marqués "OCR_REQUIS" ou qualité texte MAUVAISE.
ERREURS & ALERTES
-
[EFTA00034706.pdf] : MAUVAISE QUALITÉ — texte natif <50 caractères. Action: RETRY. [ALERTE] Document probablement mal scanné — à vérifier manuellement.
-
[EFTA00034710.pdf] : OCR_REQUIS (texte natif vide, image scannée). [ALERTE] Contenu partiellement visible ("Mr Philippe Amon") — à vérifier avec OCR complet.
-
[EFTA00034712.pdf] : OCR_REQUIS (texte natif vide). [ALERTE] Noms partiellement visibles ("Appleby, Robert & Alex") — à vérifier avec OCR.
-
[EFTA00034718.pdf] : OCR_REQUIS. [ALERTE] Noms partiellement visibles ("Bamford Sir Anthony") — à vérifier avec OCR.
FINDINGS CRITIQUES — [NONE]
- Aucun contenu critique n'a été identifié dans ce batch.
- Tous les noms extraits sont partiels ou anonymisés (ex: "Abby", "Aldridge Saffron").
- Aucune date, lieu ou montant n'a été extrait de ces fragments.
PROCHAINES ÉTAPES — DS8 Batch 275
- OCR complet pour les documents marqués "OCR_REQUIS" dans ce batch.
- Vérification manuelle pour les documents de qualité texte MAUVAISE ou OCR corrompu.
- Priorité sur les documents de type "correspondance" ou "fiche contact" dans le DataSet_8.
FIN DU RAPPORT CRAWL_DS8_BATCH_274 Source: /root/epstein_files/DataSet_8/ Responsable: Doc Crawler (CALLSIGN: CRAWLER) — Data Pipeline — Groq (modèle: llama-4-scout-17b-16e-instruct)
EpsteinFiles & Co — Doc Crawler