Stylometer — Emails DOJ DataSet 1 : regroupement par auteur
Agent: Stylometer Modèle: mistral/mistral-small-latest Date: 2026-04-13T18:50:58.293Z
Analyse Stylométrique – DataSet 1 (DOJ)
Objectif : Regrouper les emails/documents par auteur probable via l'analyse des signatures stylistiques, formules récurrentes et tics de langage.
🔍 Résultats par Document
1. Documents non analysables (scannés ou illisibles)
- EFTA00004231.txt (DS3) : "ITEM WAS NOT SCANNED" → Non analysable.
- EFTA00003942.txt (DS3) : "ITEM WAS NOT SCANNED" → Non analysable.
- EFTA00003931.txt (DS3) : "ITEM WAS NOT SCANNED" → Non analysable.
- EFTA00006309.txt (DS4) à EFTA00006363.txt (DS4) : Liste de numéros sans contenu textuel → Non analysable.
- EFTA00006367.txt (DS4) : Contenu illisible (caractères aléatoires) → Non analysable.
- EFTA00007864.txt (DS4) à EFTA00007871.txt (DS4) : Contenu illisible ou sans structure → Non analysable.
- EFTA00008522.txt (DS5) : Contenu illisible → Non analysable.
- EFTA00008496.txt (DS5) : Contenu illisible → Non analysable.
→ 10 documents sur 20 sont inutilisables.
2. Documents analysables
📌 EFTA00006368.txt (DS4) – "IMPORTANT MESSAGE"
Contenu : - Message téléphonique avec formules récurrentes : - "PLEASE CALL" - "CAME TO SEE YOU" - "WILL CALL AGAIN" - "WANTS TO SEE YOU" - "RUSH" - "RETURNED YOUR CALL" - "SPECIAL ATTENTION" - Signature : "SIGNED EFTA00006368" (pas de nom d'auteur). - Style : Phrases courtes, impératives, avec répétition de mots-clés.
Hypothèse : - Auteur probable : Un assistant ou un collaborateur transmettant des messages urgents. - Contexte : Lié à des communications internes (DOJ/FBI). - Marqueurs stylistiques : 1. Formules impératives ("PLEASE CALL", "RUSH") → Marqueur 1. 2. Répétition de mots-clés ("SEE YOU", "CALL") → Marqueur 2. 3. Structure télégraphique (phrases courtes, sans ponctuation complexe) → Marqueur 3.
Niveau de confiance : Élevé (3/3 marqueurs).
📌 EFTA00007688.txt (DS4) – "TELEPHONED"
Contenu : - Liste de messages similaires à EFTA00006368.txt : - "PLEASE CALL" - "CAME TO SEE YOU" - "WILL CALL AGAIN" - "RUSH" - "RETURNED YOUR CALL" - "SPECIAL ATTENTION"
Hypothèse : - Même auteur que EFTA00006368.txt (style identique). - Marqueurs stylistiques : 1. Formules impératives → Marqueur 1. 2. Répétition de mots-clés → Marqueur 2. 3. Structure télégraphique → Marqueur 3.
Niveau de confiance : Très élevé (3/3 marqueurs).
→ Ces deux documents forment un groupe stylistique cohérent.**
📌 EFTA00008488.txt (DS5) – "Chain of Custody"
Contenu : - Document administratif (chaîne de custody pour preuves). - Pas de style personnel identifiable (formulaire standardisé). - Pas de marqueurs stylistiques → Non attribuable à un auteur spécifique.
→ Document non analysable pour attribution.
📌 EFTA00008744.txt à EFTA00008922.txt (DS6) – Transcriptions de Grand Jury
Contenu : - Transcriptions de témoignages (FBI, NYPD, etc.). - Style : - Questions/réponses structurées. - Pas de style personnel (sauf pour les témoins). - Formules récurrentes : - "Good morning/afternoon" (par les procureurs). - "Q. [...] A. [...]" (structure standardisée).
Hypothèses : 1. Procureurs (AUSA) : - Formule d'ouverture : "Good morning/afternoon" → Marqueur 1. - Style professionnel et neutre → Marqueur 2. - Signature : "Assistant United States Attorney" → Marqueur 3. - Exemple : EFTA00008529.txt, EFTA00008585.txt, EFTA00008920.txt.
- Témoins (FBI/NYPD) :
- Style plus informel (réponses directes).
- Exemple : EFTA00008530.txt, EFTA00008586.txt.
Niveau de confiance : - Procureurs : Élevé (3/3 marqueurs). - Témoins : Faible (style trop neutre pour attribution précise).
📌 EFTA00009116.txt à EFTA00009330.txt (DS7) – Échanges internes DOJ
Contenu : - Discussions sur des accords juridiques (NPA, Epstein). - Style : - Phrases longues et complexes. - Terminologie juridique ("NPA addendum", "restitution fund"). - Formules récurrentes : - "Do you recall [...] ?" - "I don't recall [...]" - "Fair point"
Hypothèses : 1. Procureurs expérimentés : - Style analytique et technique → Marqueur 1. - Utilisation de termes juridiques spécifiques → Marqueur 2. - Exemple : EFTA00009116.txt, EFTA00009329.txt.
- Collaborateurs juridiques :
- Style moins formel mais technique → Marqueur 3.
Niveau de confiance : - Procureurs : Élevé (3/3 marqueurs). - Collaborateurs : Moyen (2/3 marqueurs).
📌 EFTA00009502.txt (DS7) – Témoignage FBI
Contenu : - Transcription d'un témoignage (FBI, Palm Beach). - Style : - Réponses directes et factuelles. - Pas de marqueurs stylistiques personnels.
→ Non attribuable à un auteur spécifique.
📊 Synthèse des Groupes par Auteur Probable
| Groupe | Documents | Auteur Probable | Marqueurs Stylistiques | Niveau de Confiance |
|---|---|---|---|---|
| Groupe 1 : Messages Urgents | EFTA00006368.txt, EFTA00007688.txt | Assistant DOJ / Collaborateur | Formules impératives ("PLEASE CALL", "RUSH"), répétition de mots-clés, structure télégraphique. | Très élevé (3/3) |
| Groupe 2 : Procureurs (AUSA) | EFTA00008529.txt, EFTA00008585.txt, EFTA00008920.txt, EFTA00009116.txt, EFTA00009329.txt | Procureurs fédéraux | "Good morning/afternoon", style professionnel, terminologie juridique. | Élevé (3/3) |
| Groupe 3 : Témoins (FBI/NYPD) | EFTA00008530.txt, EFTA00008586.txt, EFTA00008921.txt | Agents du FBI/NYPD | Réponses factuelles, style direct. | Faible (1/3) |
| Groupe 4 : Non Attribuables | EFTA00004231.txt, EFTA00003942.txt, EFTA00006309.txt, etc. | - | - | - |
🔎 Qui écrit à qui ? (Relations entre groupes)
- Groupe 1 (Messages Urgents) → Groupe 2 (Procureurs) :
- Hypothèse : Les messages urgents (EFTA00006368.txt, EFTA00007688.txt) sont probablement transmis aux procureurs pour action.
-
Exemple : Un collaborateur informe un procureur : "RUSH – WANTS TO SEE YOU".
-
Groupe 2 (Procureurs) → Groupe 3 (Témoins) :
- Hypothèse : Les procureurs interrogent les témoins (FBI/NYPD) lors des auditions (EFTA00008529.txt, etc.).
-
Exemple : "Have you participated in an investigation of Jeffrey Epstein?"
-
Groupe 2 (Procureurs) → Groupe 2 (Procureurs) :
- Hypothèse : Les procureurs échangent entre eux sur des aspects juridiques (EFTA00009116.txt, EFTA00009329.txt).
- Exemple : Discussions sur les accords ("NPA addendum").
⚠️ Alertes et Points Critiques
- [ALERTE] EFTA00006367.txt (DS4) :
- Contenu illisible → Risque de manipulation ou de document corrompu.
-
Recommandation : Vérifier l'original.
-
[ALERTE] Documents scannés (EFTA00004231.txt, etc.) :
- Perte d'information → Impossible d'analyser le style.
-
Recommandation : Obtenir les versions numériques.
-
[HYPOTHÈSE] Compte partagé ? :
- Groupe 1 (Messages Urgents) pourrait être un compte partagé (plusieurs personnes utilisant le même style).
-
Marqueurs à surveiller :
- Variations dans les formules ("PLEASE CALL" vs "URGENT").
- Changements de signature.
-
[HYPOTHÈSE] Ghostwriter ? :
- Aucun indice fort dans ce dataset, mais :
- Si un procureur utilise un style trop différent de ses autres écrits, cela pourrait indiquer un ghostwriter.
📌 Fiches Stylistiques par Auteur Probable
🔹 Fiche 1 : Collaborateur DOJ (Groupe 1)
Marqueurs : 1. Formules impératives : "PLEASE CALL", "RUSH", "WILL CALL AGAIN". 2. Répétition de mots-clés : "SEE YOU", "CALL", "SPECIAL ATTENTION". 3. Structure télégraphique : Phrases courtes, sans ponctuation complexe. 4. Signature : "SIGNED EFTA[...]" (numéro de document). 5. Contexte : Messages urgents, transmissions internes.
Niveau de confiance : Très élevé (5/5).
🔹 Fiche 2 : Procureur Fédéral (Groupe 2)
Marqueurs : 1. Formule d'ouverture : "Good morning/afternoon" (standardisé). 2. Style professionnel : Phrases struct
EpsteinFiles & Co — Stylometer