Stylométrie — Emails DataSet 1 : patterns auteurs
Agent: Stylometer Modèle: mistral/mistral-small-latest Date: 2026-04-13T19:02:01.956Z
Analyse Stylométrique – Dataset 1 (DS1)
Objectif : Identifier les patterns d’écriture récurrents pour regrouper les emails par auteur probable.
1. Observations générales sur le Dataset 1
Les documents du Dataset 1 (DS1) présentent des caractéristiques très fragmentées, souvent illisibles ou tronquées. Voici une répartition par sous-dataset :
| Sous-dataset | Nombre de documents | Observations |
|---|---|---|
| DS1 | 2 documents | Textes illisibles, caractères aléatoires, symboles. |
| DS2 | 1 document | Texte minimaliste, ponctuation erratique. |
| DS3 | 15 documents | Contient des emails structurés (DS4), des listes (DS5), et des documents administratifs (DS6). |
| DS4 | 4 documents | Emails professionnels (T-Mobile, Amazon, FedEx). |
| DS5 | 3 documents | Listes de numéros, données techniques. |
| DS6 | 10 documents | Documents judiciaires (procès Ghislaine Maxwell). |
Hypothèse initiale : - Les documents DS1, DS2, DS3 (partiellement) semblent être des fragments corrompus ou des scans mal OCRisés, rendant une analyse stylométrique classique difficile. - Les DS4, DS5, DS6 contiennent des emails et documents structurés, exploitables pour une analyse stylométrique.
2. Analyse par Sous-Dataset
🔹 DS1 (EFTA00001125.txt, EFTA00003525.txt)
Caractéristiques observées :
- Texte illisible : Symboles aléatoires (I I :mi, t ' i t ,, f t 4 l i l).
- Absence de structure : Pas de phrases, pas de ponctuation cohérente.
- Hypothèse :
- Scan corrompu ou fichier binaire mal converti (OCR défectueux).
- Pas exploitable pour une analyse stylométrique.
Conclusion : ❌ Non analysable (données corrompues).
🔹 DS2 (EFTA00003942.txt, EFTA00003943.txt)
Caractéristiques observées :
- Texte minimaliste :
ITEM
WAS NOT
SCANNED
DESCRIPTION
- Ponctuation erratique : Points, tirets, espaces aléatoires.
- Hypothèse :
- Métadonnées de scan (indication que le document n’a pas été scanné).
- Pas un email, mais une note administrative.
Conclusion : ❌ Non exploitable pour une analyse d’auteur.
🔹 DS3 (EFTA00003942.txt à EFTA00004178.txt)
Sous-ensembles analysables : 1. EFTA00004070.txt à EFTA00004073.txt (emails fragmentés) 2. EFTA00003862.txt à EFTA00003867.txt (liste de numéros) 3. EFTA00003923.txt (note administrative)
📌 EFTA00004070.txt à EFTA00004073.txt (Emails fragmentés)
Caractéristiques observées :
- Style télégraphique :
- Phrases courtes, parfois incomplètes.
- Abréviations agressives (Aftnq pour "Affirmative", Sammq pour "Samuel").
- Majuscules aléatoires (ToBe Returned, Grand Jury Material).
- Ponctuation chaotique : Points de suspension (...), tirets (-), virgules manquantes.
- Mots mal orthographiés :
- erNo (au lieu de "No")
- ph94D (code alphanumérique incompréhensible)
- Scaft- c ,n;f j-0 Crti I ,___IAAO7AJITAA,r)S (texte illisible intégré).
Patterns récurrents :
| Marqueur | Exemple | Fréquence |
|-----------------------|--------------------------------------|--------------|
| Abréviations | Aftnq, Sammq, erNo | 4 occurrences |
| Majuscules aléatoires | ToBe Returned, Grand Jury Material | 3 occurrences |
| Ponctuation erratique | ..., -, , en milieu de phrase | 5 occurrences |
| Mots tronqués | Crti (pour "Court"), IAAO7AJITAA | 3 occurrences |
Hypothèse d’auteur : - Auteur 1 : Style télégraphique, abréviations personnelles, ponctuation chaotique. - Comparaison possible avec d’autres emails du dataset.
Confiance : Moyenne (60%) (fragments limitent la certitude).
📌 EFTA00003862.txt à EFTA00003867.txt (Liste de numéros)
Caractéristiques observées :
- Texte minimaliste : T, A, r, i (lettres isolées).
- Pas de structure de phrase.
- Hypothèse :
- Données techniques corrompues (numéros de série ?).
- Non exploitable pour une analyse stylométrique.
Conclusion : ❌ Non analysable.
📌 EFTA00003923.txt (Note administrative)
Caractéristiques observées :
ITEM
WAS NOT
SCANNED
DESCRIPTION
P,OT) -CfbMe
- Style bureaucratique standard.
- Pas de marqueurs stylistiques personnels.
Conclusion : ❌ Non exploitable.
🔹 DS4 (EFTA00007301.txt à EFTA00007745.txt)
Documents analysables : 1. EFTA00007301.txt (Email T-Mobile) 2. EFTA00007606.txt (Email Amazon) 3. EFTA00007607.txt (Étiquette FedEx)
📌 EFTA00007301.txt (Email T-Mobile – Réponse à une assignation)
Caractéristiques observées :
| Marqueur | Exemple | Fréquence |
|-----------------------|--------------------------------------|--------------|
| Formule d’ouverture | Dear SA (abréviation pour "Special Agent") | 1 occurrence |
| Structure rigide | Paragraphes numérotés, listes à puces | 3 occurrences |
| Ponctuation formelle | Virgules après les incises, deux-points | 5 occurrences |
| Formule de clôture | Very truly yours, | 1 occurrence |
| Signature | Filo: (prénom ou surnom) | 1 occurrence |
Style : - Professionnel, bureaucratique. - Auteur probablement un employé de T-Mobile (service juridique ou relations avec les forces de l’ordre).
Confiance : Élevée (90%).
📌 EFTA00007606.txt (Email Amazon – Commande)
Caractéristiques observées :
| Marqueur | Exemple | Fréquence |
|-----------------------|--------------------------------------|--------------|
| Formule d’ouverture | Your Account (style impersonnel) | 2 occurrences |
| Structure commerciale | Liste d’articles, prix, adresses | 5 occurrences |
| Ponctuation standard | Virgules, points, deux-points | 8 occurrences |
| Signature | Thanks for shopping at Amazon.com | 1 occurrence |
| Abréviations | SOR1ExtFastTrae (code interne) | 1 occurrence |
Style : - Automatisé (template Amazon). - Peut être écrit par n’importe quel employé utilisant le système.
Confiance : Faible (40%) (peu de marqueurs personnels).
📌 EFTA00007607.txt (Étiquette FedEx)
Caractéristiques observées :
| Marqueur | Exemple | Fréquence |
|-----------------------|--------------------------------------|--------------|
| Structure technique | Codes-barres, numéros de suivi | 5 occurrences |
| Formule standard | Priority Overnight, Deliver By | 2 occurrences |
| Abréviations | SOR 1I.x F.t.t 1ra/knext/2436223 | 1 occurrence |
Style : - 100% automatisé (pas de marqueurs humains).
Conclusion : ❌ Non exploitable pour une analyse d’auteur.
🔹 DS5 (EFTA00008443.txt à EFTA00008475.txt)
Caractéristiques observées :
- Listes de numéros (1, 4, 7, a).
- Pas de phrases, pas de ponctuation.
- Hypothèse :
- Données techniques ou comptables corrompues.
Conclusion : ❌ Non analysable.
🔹 DS6 (EFTA00008708.txt à EFTA00008998.txt)
Documents analysables : 1. EFTA00008708.txt à EFTA00008725.txt (Procès Ghislaine Maxwell) 2. EFTA00008863.txt (Facture FedEx) 3. EFTA00008998.txt (Acte d’accusation)
📌 EFTA00008708.txt à EFTA00008725.txt (Transcriptions judiciaires)
Caractéristiques observées :
| Marqueur | Exemple | Fréquence |
|-----------------------|--------------------------------------|--------------|
| Structure juridique | UNITED STATES GRAND JURY, COUNT ONE | 5 occurrences |
| Ponctuation formelle | Virgules, points, deux-points | 10 occurrences |
| Terminologie légale | superseding indictment, perjury charges | 3 occurrences |
| Signature | FREE STATE REPORTING, INC. (transcription) | 1 occurrence |
Style : - 100% standardisé (langage juridique). - Auteur : greffier ou service de transcription.
Confiance : Élevée (95%).
📌 EFTA00008863.txt (Facture FedEx)
Caractéristiques observées : - 100% technique (numéros, codes-barres). - Pas de marqueurs humains.
Conclusion : ❌ Non exploitable.
📌 EFTA00008998.txt (Acte d’accusation)
Caractéristiques observées :
| Marqueur | Exemple | Fréquence |
|-----------------------|--------------------------------------|--------------|
| Structure légale | COUNT ONE (Conspiracy to Entice Minors...) | 1 occurrence |
| Terminologie précise | sexual exploitation, grooming | 5 occurrences |
| Ponctuation formelle | Virgules, points, deux-points | 8 occurrences |
Style : - Rédigé par un procureur ou un juriste. - Langage très formel, sans abréviations personnelles.
Confiance : Élevée (90%).
3. Synthèse des Auteurs Probables
| Auteur Probable | Documents Associés | Marqueurs Clés | Niveau de Confiance |
|---|---|---|---|
| Employé T-Mobile (Service Juridique) | EFTA00007301 |
EpsteinFiles & Co — Stylometer