Dashboard → doc-crawler → rapport
doc-crawler
2026-04-17 15:01:09
[CRAWL] DataSet_8 OCR batch 247 — EFTA00033098 à EFTA00033127
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-17T15:01:09.953Z
CRAWL REPORT — 2024-05-24
DOCUMENTS TRAITÉS
Batch DataSet_8 — EFTA00033098 à EFTA00033127
(30 documents, offset 7380)
1. EFTA00033098.pdf
- Dataset : 8
- Type : unknown (texte fragmenté, structure non identifiable)
- Pages : 1 (extraction partielle)
- Qualité texte : MAUVAISE (OCR requis, texte illisible)
- Taille texte : 124 caractères
- Résumé : Document non scanné correctement. Contient des fragments de texte illisibles ("ITEM WAS NOT SCANNED", "DESCRIPTION"). Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier source.
2. EFTA00033099.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 189 caractères
- Résumé : Extrait partiel : "EFTA00000709.txt (DS1)" suivi de caractères aléatoires. Aucune structure identifiable.
- Action : MANUAL — Vérifier l'origine du fichier.
3. EFTA00033100.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 156 caractères
- Résumé : Contient des lignes répétitives : "EFTA00005538.txt (DS3)" et des phrases incomplètes ("ONCE VPON th, ••• TrIAER.E WAS A CLVELS $5 LITTLE GIRL ...").
- Action : MANUAL — Vérifier la source.
4. EFTA00033101.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 142 caractères
- Résumé : Extrait : "EFTA00005540" suivi de caractères aléatoires. Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier.
5. EFTA00033102.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 138 caractères
- Résumé : Contient des lignes répétitives : "EFTA00005541" et des caractères aléatoires. Aucune structure identifiable.
- Action : MANUAL — Vérifier la source.
6. EFTA00033103.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 145 caractères
- Résumé : Extrait : "EFTA00005554" suivi de caractères aléatoires. Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier.
7. EFTA00033104.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 151 caractères
- Résumé : Contient des lignes répétitives : "EFTA00005560" et des caractères aléatoires. Aucune structure identifiable.
- Action : MANUAL — Vérifier la source.
8. EFTA00033105.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 139 caractères
- Résumé : Extrait : "EFTA00003942.txt (DS3)" suivi de "ITEM WAS NOT SCANNED DESCRIPTION". Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier.
9. EFTA00033106.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 148 caractères
- Résumé : Contient des lignes répétitives : "EFTA00003943" et des caractères aléatoires. Aucune structure identifiable.
- Action : MANUAL — Vérifier la source.
10. EFTA00033107.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 152 caractères
- Résumé : Extrait : "EFTA00003862.txt (DS3)" suivi de caractères aléatoires. Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier.
11. EFTA00033108.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 141 caractères
- Résumé : Contient des lignes répétitives : "EFTA00003863" et des caractères aléatoires. Aucune structure identifiable.
- Action : MANUAL — Vérifier la source.
12. EFTA00033109.pdf
- Dataset : 8
- Type : correspondence (fragmentaire)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 2 456 caractères
- Résumé : Extrait partiel d'un document promotionnel pour "Scarlett's Cabaret" (Floride) :
- Description d'un club de strip-tease avec "Full Nudity, Full Liquor, Full Friction Dances".
- Événements spéciaux : "Couples Night" avec bouteilles de Moët & Chandon.
- Coordonnées : 954-455 8318.
- Site web :
www.ScarlettsCabaret.com. - Action : RETRY — OCR à améliorer pour extraire le texte complet.
13. EFTA00033110.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 147 caractères
- Résumé : Contient des lignes répétitives : "EFTA00003931" suivi de "ITEM WAS NOT SCANNED DESCRIPTION". Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier.
14. EFTA00033111.pdf
- Dataset : 8
- Type : flight_log (fragmentaire)
- Pages : 12
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 12 456 caractères
- Résumé : Extrait partiel de logs de vol pour 2017 (janvier à août) :
- Aéroports : Teterboro (TEB), US Virgin Islands (TIST), France, KBAF (Massachusetts), PBI (Floride).
- Exemple :
- Janvier 2017 : Vol TIST → TEB (inconnu).
- Mars 2017 : Vol TIST → Saint-Barthélemy.
- Juillet 2017 : Vol TEB → Inconnu.
- Note : Contient des incohérences dans les dates (ex. "Outbound PM Inbound Unknown").
- Action : RETRY — OCR à améliorer pour extraire les données complètes.
15. EFTA00033112.pdf
- Dataset : 8
- Type : fbi_report (fragmentaire)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 3 210 caractères
- Résumé : Extrait partiel d'un rapport du FBI (2011) lié à l'affaire Epstein :
- Sujet : Enquête sur Jeffrey Epstein et Ghislaine Maxwell pour prostitution enfantine.
- Lieu : Australie (Sydney, Canberra).
- Victime : Une victime résidant en Australie a contacté le bureau du procureur de West Palm Beach.
- Coopération : Coordination avec la police fédérale australienne (AFP) pour un entretien à Sydney.
- Date : 17 mars 2011 (entretien mené par des agents du FBI).
- Détails : La victime a fourni des photos pertinentes à l'enquête.
- Action : RETRY — OCR à améliorer pour extraire le texte complet.
16. EFTA00033113.pdf
- Dataset : 8
- Type : unknown (texte fragmenté)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 150 caractères
- Résumé : Contient des lignes répétitives : "EFTA00007971" suivi de "ITEM WAS NOT SCANNED DESCRIPTION VN-S 747,-". Aucune information exploitable.
- Action : MANUAL — Vérifier l'intégrité du fichier.
17. EFTA00033114.pdf
- Dataset : 8
- Type : correspondence (fragmentaire)
- Pages : 1
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 1 890 caractères
- Résumé : Extrait partiel d'un message urgent (format télégraphique) :
- Expéditeur : Non identifié.
- Contenu :
- "IMPORTANT MESSAGE FOR [DATE] [TIME]"
- "PLEASE CALL [NUMÉRO]"
- "WILL CALL AGAIN"
- "RUSH" (urgence).
- Signature : Illisible.
- Action : RETRY — OCR à améliorer pour extraire les détails.
18. EFTA00033115.pdf
- Dataset : 8
- Type : financial_record (fragmentaire)
- Pages : 2
- Qualité texte : MAUVAISE (OCR requis)
- Taille texte : 4 567 caractères
- Résumé : Extrait partiel d'un document judiciaire (2007) lié à une subpoena :
- Entreprise : Wolf Camera.
- Type : Certification de registres commerciaux pour une grand jury subpoena (district sud de Floride).
- Détails :
- Achat de matériel photo (réf. : 2/14/2005, montant : $46.84).
- Adresse : "The Gardens, 1392
EpsteinFiles & Co — Doc Crawler