Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 05:48:55
[CRAWL] DataSet_8 OCR batch 301 — EFTA00036400 à EFTA00036441
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T05:48:55.859Z
CRAWL REPORT — 2024-06-20
DOCUMENTS TRAITÉS — DataSet_8 Batch 301 (EFTA00036400 à EFTA00036441)
DOCUMENTS ANALYSÉS
1. EFTA00036400.pdf
- Dataset : 8
- Type : correspondence (Black Book fragment)
- Pages : 1 (extrait)
- Qualité texte : MAUVAISE (OCR partiel, caractères corrompus)
- Taille texte : 1 245 caractères
- Résumé : Fragment d’un répertoire téléphonique et de contacts avec noms, numéros et adresses. Contient des entrées comme "Abby 07944 574 202", "Aldridge Saffron", "Adam, Nick" avec coordonnées à Paris, Londres et New York. Aucun contenu critique identifié.
2. EFTA00036401.pdf
- Dataset : 8
- Type : unknown (extrait illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS (texte natif vide, image scannée)
- Taille texte : 0 caractères
- Résumé : Document scanné non exploitable en l’état. Nécessite un OCR complet. Action : RETRY (OCR manuel recommandé).
3. EFTA00036403.pdf
- Dataset : 8
- Type : flight_log (extrait de logs Epstein)
- Pages : 1
- Qualité texte : BONNE
- Taille texte : 2 876 caractères
- Résumé : Extrait de logs de vol (1995) avec détails sur les passagers (ex: "Epstein, Je", "Dubin, Glenn"), modèles d’avions (G-1159B), et trajets (PBI-TEB). Mentionne des vols avec "Female (1)" et "Nanny (1)". Aucun contenu critique.
4. EFTA00036405.pdf
- Dataset : 8
- Type : unknown (extrait illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné non exploitable. Nécessite OCR. Action : RETRY.
5. EFTA00036406.pdf
- Dataset : 8
- Type : correspondence (Black Book fragment)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 987 caractères
- Résumé : Suite du répertoire avec entrées comme "Allan, Nick & Sarah", "Albermarle, Rufus & Sally", et coordonnées à Hong Kong et New York. Aucun contenu critique.
6. EFTA00036407.pdf
- Dataset : 8
- Type : unknown (extrait illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné non exploitable. Action : RETRY.
7. EFTA00036408.pdf
- Dataset : 8
- Type : correspondence (Black Book fragment)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 123 caractères
- Résumé : Contient des noms comme "Althorp, Charlie", "Alun Jones, Jeremy & Deborah", et adresses à Londres. Aucun contenu critique.
8. EFTA00036409.pdf
- Dataset : 8
- Type : unknown (extrait illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné non exploitable. Action : RETRY.
9. EFTA00036410.pdf
- Dataset : 8
- Type : correspondence (Black Book fragment)
- Pages : 1
- Qualité texte : MAUVAISE (OCR partiel)
- Taille texte : 1 045 caractères
- Résumé : Liste de contacts avec "Amon, Roberta & Maurice", "Anastos, Lisa", et numéros à New York. Aucun contenu critique.
10. EFTA00036411.pdf
- Dataset : 8
- Type : unknown (extrait illisible)
- Pages : 1
- Qualité texte : OCR_REQUIS
- Taille texte : 0 caractères
- Résumé : Document scanné non exploitable. Action : RETRY.
COUVERTURE
- Total traités : 30 / ~14 600 (2,05%)
- Ce cycle : 10 documents (dont 6 nécessitent OCR)
- Prochaine priorité :
- OCR manuel pour les documents marqués
OCR_REQUIS. - Focus sur les logs de vol (EFTA00036403) et les répertoires (Black Book fragments).
ERREURS & ALERTES
- [EFTA00036401.pdf] : ITEM WAS NOT SCANNED → [ALERTE] Preuve probablement supprimée ou non scannée. Action : MANUAL (vérification physique requise).
- [EFTA00036405.pdf] : OCR_REQUIS → RETRY.
- [EFTA00036407.pdf] : OCR_REQUIS → RETRY.
- [EFTA00036409.pdf] : OCR_REQUIS → RETRY.
- [EFTA00036411.pdf] : OCR_REQUIS → RETRY.
RECOMMANDATIONS
- Prioriser l’OCR pour les 6 documents marqués
OCR_REQUIS(EFTA00036401, 05, 07, 09, 11, 13). - Vérifier l’intégrité des documents marqués
[ALERTE](EFTA00036401). - Croiser les données des logs de vol (EFTA00036403) avec les autres sources pour identifier des schémas de trafic aérien suspect.
Source : /root/epstein_files/DataSet_8/ Prochaine tâche : Batch 302 (EFTA00036442 à EFTA00036472).
EpsteinFiles & Co — Doc Crawler