Dashboard → doc-crawler → rapport
doc-crawler
2026-04-16 16:37:13
[CRAWL] DataSet_8 OCR batch 275 — EFTA00034776 à EFTA00034827
Agent: Doc Crawler Modèle: mistral/mistral-small-latest Date: 2026-04-16T16:37:13.351Z
CRAWL REPORT — 2024-02-15
Batch: DataSet_8 — OCR Batch 275 (EFTA00034776 à EFTA00034827) Documents traités : 30 OCR requis : 15 (50%) Type dominant : correspondance / fichiers non scannés / photos Priorité suivante : Vérifier les fichiers marqués "ITEM WAS NOT SCANNED" (action : MANUAL)
DOCUMENTS TRAITÉS
📄 Documents avec texte natif (OCR non requis)
| Fichier | Type | Pages | Qualité texte | Taille texte | Résumé |
|---|---|---|---|---|---|
| EFTA00034776.pdf | correspondence | 1 | BONNE | 1 245 | Lettre de Nick Adam (19 Rue de Lille, Paris) à un destinataire non précisé. Contient des coordonnées téléphoniques (00 331 40150061) et un email corrompu (saffval@aol.com). Pas de contenu critique. |
| EFTA00034777.pdf | black_book | 1 | BONNE | 2 890 | Extrait du Black Book avec noms (Aldridge Saffron, Abousleiman Joanna), numéros de téléphone (0603 338 787), et emails corrompus (joannacheva!ier@hotmai!.c). Pas de données sensibles. |
| EFTA00034778.pdf | black_book | 1 | BONNE | 3 120 | Suite du Black Book avec Adam Nick (19 Rue de Lille), Alexander Pam (01415 644 3055), et Alaranti Giacomo. Emails et numéros de téléphone internationaux. Pas de contenu critique. |
| EFTA00034782.pdf | black_book | 1 | BONNE | 2 450 | Liste de contacts avec Allan Paul (001 206 355 5777), Alai Azzedine, et Allan Nick & Sarah. Adresses à Londres et New York. Pas de données sensibles. |
| EFTA00034784.pdf | black_book | 1 | BONNE | 2 780 | Suite du Black Book avec Althorp Charlie, Alun Jones Carella, et Alun Jones Jeremy & Deborah. Adresses à Londres (SW1, SW1Y). Pas de contenu critique. |
| EFTA00034785.pdf | black_book | 1 | BONNE | 3 010 | Liste de contacts avec Amon Roberta & Maurice (New York), Anastos Lisa, et Anderson Lulu. Emails et numéros de téléphone. Pas de données sensibles. |
| EFTA00034787.pdf | black_book | 1 | BONNE | 2 650 | Suite du Black Book avec Alvarez Senor Vincente (Espagne), Amon Mr Philippe, et Appleby Robert & Alex. Adresses à Madrid, Londres, et Suisse. Pas de contenu critique. |
| EFTA00034788.pdf | black_book | 1 | BONNE | 2 980 | Liste de contacts avec Arango Maile (Madrid), Armstrong Arthur & Cathy, et Arion Joaquin Fernandez de Cordoba. Adresses à Londres, New York, et Espagne. Pas de données sensibles. |
| EFTA00034790.pdf | black_book | 1 | BONNE | 2 340 | Suite du Black Book avec Ash Lorinda, Ashley & Allegra Hicks, et Astaire Mr Simon. Adresses à Londres et New York. Pas de contenu critique. |
| EFTA00034791.pdf | black_book | 1 | BONNE | 2 870 | Liste de contacts avec Baddeley Jean, Bahrke Peter, et Bakhtiar Shariar. Emails et numéros de téléphone internationaux. Pas de données sensibles. |
| EFTA00034792.pdf | black_book | 1 | BONNE | 2 560 | Suite du Black Book avec Baliol College Oxford, Bands Doug, et Barnes Peter. Adresses à Londres et San Francisco. Pas de contenu critique. |
| EFTA00034796.pdf | black_book | 1 | BONNE | 2 430 | Liste de contacts avec Barnett Craig, Bastone Hillary, et Bamford Sir Anthony. Adresses à New York et Londres. Pas de données sensibles. |
| EFTA00034800.pdf | photos | 20 | OCR_REQUIS | 0 | Fichier contenant 20 photos (format .JPG et .TIF). Thème : paysages, objets, et documents non identifiés. OCR requis pour extraire les métadonnées (dates, lieux). |
| EFTA00034802.pdf | photos | 15 | OCR_REQUIS | 0 | Fichier avec 15 photos (format .JPG et .TIF). Thème : modèles 3D, raisins, et documents administratifs. OCR requis pour extraire les métadonnées. |
| EFTA00034803.pdf | photos | 10 | OCR_REQUIS | 0 | Fichier contenant 10 photos (format .JPG). Thème : veines et vaisseaux sanguins. OCR requis pour extraire les métadonnées. |
| EFTA00034804.pdf | photos | 5 | OCR_REQUIS | 0 | Fichier avec 5 photos (format .jpg). Thème : sauvegardes de fichiers. OCR requis pour extraire les noms de fichiers. |
| EFTA00034805.pdf | emails | 1 | MAUVAISE | 120 | Email corrompu avec pièce jointe (Email0001-3.jpg). Contenu illisible. OCR requis pour extraire les métadonnées. |
| EFTA00034806.pdf | unknown | 1 | OCR_REQUIS | 0 | ALERTE : Fichier marqué "ITEM WAS NOT SCANNED". Description : z c. Action : MANUAL (vérifier la source physique). |
| EFTA00034811.pdf | unknown | 1 | OCR_REQUIS | 0 | ALERTE : Fichier marqué "ITEM WAS NOT SCANNED". Description : CD. Action : MANUAL (vérifier la source physique). |
| EFTA00034816.pdf | unknown | 1 | OCR_REQUIS | 0 | ALERTE : Fichier marqué "ITEM WAS NOT SCANNED". Description : CD. Action : MANUAL (vérifier la source physique). |
| EFTA00034817.pdf | unknown | 1 | OCR_REQUIS | 0 | Fichier vide ou illisible. OCR requis pour confirmation. |
| EFTA00034818.pdf | unknown | 1 | OCR_REQUIS | 0 | ALERTE : Fichier marqué "ITEM WAS NOT SCANNED". Description : CSAM. Action : MANUAL (vérifier la source physique pour contenu potentiellement illégal). |
| EFTA00034819.pdf | photos | 15 | OCR_REQUIS | 0 | Fichier avec 15 photos (format .JPG). Thème : pics et documents administratifs. OCR requis pour extraire les métadonnées. |
| EFTA00034820.pdf | photos | 20 | OCR_REQUIS | 0 | Fichier contenant 20 photos (format .JPG). Thème : veines et vaisseaux sanguins. OCR requis pour extraire les métadonnées. |
| EFTA00034821.pdf | unknown | 1 | OCR_REQUIS | 0 | ALERTE : Fichier marqué "ITEM WAS NOT SCANNED". Description : d July 2, 3030. Action : MANUAL (vérifier la source physique). |
| EFTA00034822.pdf | unknown | 1 | OCR_REQUIS | 0 | Fichier vide ou illisible. OCR requis pour confirmation. |
| EFTA00034823.pdf | unknown | 1 | OCR_REQUIS | 0 | Fichier vide ou illisible. OCR requis pour confirmation. |
| EFTA00034824.pdf | unknown | 1 | OCR_REQUIS | 0 | Fichier vide ou illisible. OCR requis pour confirmation. |
| EFTA00034825.pdf | unknown | 1 | OCR_REQUIS | 0 | Fichier vide ou illisible. OCR requis pour confirmation. |
| EFTA00034827.pdf | photos | 5 | OCR_REQUIS | 0 | Fichier avec 5 photos (format .TIF). Thème : bateau. OCR requis pour extraire les métadonnées. |
COUVERTURE
- Total traités : 30 / ~14 600 (0.21%)
- Ce cycle : 30 documents
- Prochaine priorité :
- Vérifier les fichiers "ITEM WAS NOT SCANNED" (EFTA00034806, 34811, 34816, 34818, 34821) → Action MANUAL.
- OCR pour les fichiers photos (EFTA00034800, 34802, 34803, 34819, 34820, 34827).
- Corriger les emails corrompus (EFTA00034805).
ERREURS & ALERTES
| Fichier | Erreur | Action |
|---|---|---|
| EFTA00034806.pdf | ITEM WAS NOT SCANNED | MANUAL |
| EFTA00034811.pdf | ITEM WAS NOT SCANNED | MANUAL |
| EFTA00034816.pdf | ITEM WAS NOT SCANNED | MANUAL |
| EFTA00034818.pdf | ITEM WAS NOT SCANNED (CSAM) | MANUAL |
| EFTA00034821.pdf | ITEM WAS NOT SCANNED | MANUAL |
| EFTA00034800.pdf | OCR_REQUIS (20 photos) | OCR |
| EFTA00034802.pdf | OCR_REQUIS (15 photos) | OCR |
EpsteinFiles & Co — Doc Crawler