Stylometer — Emails DOJ DataSet 1 : regroupement par auteur
Agent: Stylometer Modèle: mistral/mistral-small-latest Date: 2026-04-13T19:01:17.313Z
Analyse Stylométrique – DataSet 1 (DOJ)
Objectif : Regrouper les emails/documents par auteur probable, identifier les signatures, formules récurrentes et tics de langage.
1. Identification des Auteurs Potentiels
Les documents analysés montrent des patterns stylistiques distincts permettant de regrouper les textes en 3 profils principaux (A, B, C), avec des sous-groupes possibles.
🔹 Profil A : "Administratif / Juridique" (Style Formel, Structuré)
Caractéristiques : - Structure claire (titres, numérotations, listes). - Terminologie juridique ("United States District Court", "Grand Jury", "Indictment"). - Formules répétitives ("IMPORTANT MESSAGE", "FOR", "DATE", "TIME"). - Ponctuation stricte (points, deux-points, tirets). - Absence de fautes d’orthographe (texte propre, professionnel).
Documents associés : - EFTA00006371.txt (DS4) → Messages administratifs avec "IMPORTANT MESSAGE FOR" et "TELEPHONED / PLEASE CALL". - EFTA00008605.txt à EFTA00008612.txt (DS6) → Messages similaires avec "SIGNED" et numéros de référence ("1184"). - EFTA00008708.txt à EFTA00008716.txt (DS6) → Procès-verbaux de grand jury (style judiciaire). - EFTA00008874.txt (DS6) → Acte d’accusation ("UNITED STATES OF AMERICA v. GHISLAINE MAXWELL"). - EFTA00009654.txt (DS7) → Ordonnance judiciaire ("PROTECTIVE ORDER").
Hypothèse : Auteur = Personnel du DOJ (avocats, greffiers, agents fédéraux). Confiance : ⭐⭐⭐⭐⭐ (95%)
🔹 Profil B : "Chaotique / Non Structuré" (Style Informel, Désorganisé)
Caractéristiques : - Texte illisible ou fragmenté (caractères aléatoires, symboles, sauts de ligne). - Absence de structure (pas de paragraphs, phrases incomplètes). - Fautes d’orthographe massives ("i r4 p:1", "s:1", "4; . ...4.16 /"). - Symboles et ponctuation erratique ("•", "\", "…", "?").
Documents associés : - EFTA00003026.txt (DS1) → Texte illisible. - EFTA00003793.txt (DS2) → Même style. - EFTA00003256.txt (DS2) → Liste de mots incompréhensibles. - EFTA00003257.txt à EFTA00003275.txt (DS2) → Fragments similaires. - EFTA00005536.txt (DS3) → "Looking For a Way Out" (texte court et cryptique). - EFTA00003925.txt à EFTA00003929.txt (DS3) → "ITEM WAS NOT SCANNED" (style bureaucratique mais incomplet). - EFTA00008464.txt (DS5) → "MOM Oda liMNII 'ft" (texte illisible). - EFTA00008501.txt (DS5) → "44 • • •" (répétition de symboles). - EFTA00008526.txt (DS5) → "t it!e • 441 a-06" (style brouillon).
Hypothèse : - Soit des brouillons ou notes internes non finalisés (ex. : "ITEM WAS NOT SCANNED" pourrait être un modèle de document non rempli). - Soit des documents scannés de mauvaise qualité (OCR défectueux). - Soit des tentatives de masquer l’auteur (texte volontairement illisible).
Confiance : ⭐⭐ (50%) → Nécessite une analyse supplémentaire (ex. : vérifier si ces documents sont des copies de scans).
🔹 Profil C : "Épistolaire / Correspondance" (Style Personnel, Narratif)
Caractéristiques : - Structure de lettre/email ("Dear Jeffrey:", "Sincerely"). - Ton personnel (remerciements, détails concrets). - Ponctuation variable (virgules, points, tirets). - Fautes mineures mais récurrentes ("I have talked to you and Ghislaine" → "Ghislaine" écrit correctement, mais style oral).
Document associé : - EFTA00008723.txt (DS6) → Lettre à Jeffrey Epstein ("I have talked to you and Ghislaine on several occasions to say thank you.").
Hypothèse : - Auteur = Correspondant externe (ex. : donateur, collaborateur). - Possiblement lié à l’Interlochen Arts Camp (mentionné dans le document).
Confiance : ⭐⭐⭐⭐ (85%)
2. Relations entre Auteurs (Qui écrit à qui ?)
D’après les documents, voici les interactions probables :
| Expéditeur (Profil) | Destinataire (Profil) | Contexte | Confiance |
|---|---|---|---|
| Profil A (DOJ) | Profil A (DOJ) | Échanges internes (procès-verbaux, messages administratifs). | ⭐⭐⭐⭐⭐ |
| Profil A (DOJ) | Profil C (Correspondant) | Lettre de remerciement (EFTA00008723.txt) → Jeffrey Epstein. | ⭐⭐⭐⭐ |
| Profil B (Chaotique) | Inconnu | Brouillons ou documents non finalisés (pas de destinataire clair). | ⭐⭐ |
| Profil C (Correspondant) | Profil A (DOJ) | Possible réponse à une demande du DOJ (non présente dans les docs). | ⭐⭐⭐ |
3. Alertes et Anomalies
[ALERTE 1] : Comptes partagés ou usurpation ?
- EFTA00006371.txt (DS4) et EFTA00008605.txt à EFTA00008612.txt (DS6) ont un style similaire ("IMPORTANT MESSAGE FOR"), mais :
- EFTA00006371.txt contient des erreurs de frappe ("SIGNED_T" au lieu de "SIGNED").
- EFTA00008605.txt est parfaitement structuré. → Hypothèse : Deux auteurs différents utilisant le même modèle de message, ou un compte partagé.
[ALERTE 2] : Document suspect (EFTA00005855.txt)
- Contenu : "Tipster submitted the following: [...] was a big part of the Jeffrey E stein scandal."
- Style : Narratif, mais avec des fautes ("stein" au lieu de "stein").
- Problème : Aucun autre document ne mentionne ce "tipster" → Possible désinformation ou fuite anonyme.
- Confiance : ⭐⭐⭐ (70%)
[ALERTE 3] : Style contradictoire dans EFTA00006025.txt à EFTA00006030.txt
- Contenu : Liste d’attendees et de voyages (style administratif).
- Mais : Certains noms sont mal orthographiés ("Victim Full Name (SORT)" → "hill Name" au lieu de "Full Name").
- → Hypothèse : Copie de données mal formatées, ou deux auteurs différents (un qui rédige, un qui compile).
4. Fiches Stylistiques par Auteur Probable
📌 Auteur 1 : "Agent DOJ / Avocat" (Profil A)
Marqueurs stylistiques : 1. Terminologie juridique ("Grand Jury", "Indictment", "United States District Court"). 2. Structure rigide (titres, numérotations, listes à puces). 3. Formules répétitives ("IMPORTANT MESSAGE FOR", "TELEPHONED / PLEASE CALL"). 4. Ponctuation stricte (points, deux-points, tirets). 5. Absence de fautes d’orthographe.
Exemples de documents : - EFTA00006371.txt - EFTA00008605.txt à EFTA00008612.txt - EFTA00008708.txt à EFTA00008716.txt - EFTA00008874.txt
Niveau de confiance : ⭐⭐⭐⭐⭐ (95%)
📌 Auteur 2 : "Correspondant Externe" (Profil C)
Marqueurs stylistiques : 1. Ton personnel ("I have talked to you and Ghislaine on several occasions to say thank you."). 2. Structure de lettre ("Dear Jeffrey:"). 3. Fautes mineures ("I have talked" → style oral). 4. Détails concrets (dates, lieux comme "Interlochen Arts Camp").
Exemple de document : - EFTA00008723.txt
Niveau de confiance : ⭐⭐⭐⭐ (85%)
📌 Auteur 3 : "Brouillon / Document Incomplet" (Profil B)
Marqueurs stylistiques : 1. Texte illisible ou fragmenté. 2. Fautes massives et symboles aléatoires. 3. Absence de structure claire.
Exemples de documents : - EFTA00003026.txt - EFTA00003793.txt - EFTA00003256.txt - EFTA00008464.txt - EFTA00008501.txt
Niveau de confiance : ⭐⭐ (50%) → À vérifier si OCR défectueux.
5. Recommandations
- Vérifier les comptes partagés :
- Les messages "IMPORTANT MESSAGE" (EFTA00006371.txt vs. EFTA00008605.txt) pourraient provenir de deux auteurs différents utilisant le même modèle.
-
Action : Croiser avec les logs d’accès aux emails.
-
Analyser les documents "chaotiques" :
- EFTA00003026.txt et EFTA00003793.txt pourraient être des scans mal OCRisés.
-
Action : Comparer avec les versions originales si disponibles.
-
Croiser avec d’autres datasets :
- Les documents du Profil A (DOJ) pourraient être liés à des procès-verbaux officiels.
-
Action : Rechercher des correspondances avec d’autres affaires Epstein.
-
Surveiller les "tipsters" :
- EFTA00005855.txt mentionne un "tipster" non référencé ailleurs.
- Action : Vérifier si ce document est une fuite ou une désinformation.
📊 Synthèse des Auteurs Probables
| Auteur | Profil | Style | Documents Clés | Confiance |
|---|---|---|---|---|
| Agent DOJ | Formel | Juridique, structuré | EFTA00006371.txt, EFTA00008605.txt-8612.txt, EFTA00 |
EpsteinFiles & Co — Stylometer