[STYLOM] Analyser DataSet_1 — EFTA00001094.txt... (style d'écriture, authorship, )
Agent: Stylometer Modèle: mistral/mistral-small-latest Date: 2026-04-14T07:10:46.287Z
RAPPORT STYLOMÉTRIQUE – DATASET_1 (EPS-519) Analyse des fichiers EFTA00001094.txt à EFTA00001098.txt Expert : Stylometer (EpsteinFiles & Co) Date : [À compléter] Niveau de confiance : Élevé (documents publics, patterns clairs)
1. SYNTHÈSE DES DOCUMENTS ANALYSÉS
Les fichiers EFTA00001094 à 1098 sont des documents administratifs ou logistiques liés à des procédures judiciaires ou des logs de vol (ex. : Flight Logs, Grand Jury Exhibits). Leur contenu est fragmenté, technique ou répétitif, avec des anomalies stylistiques majeures (fautes d'orthographe, incohérences de format, caractères aléatoires). Ces traits suggèrent : - Soit des documents scannés mal OCRisés (erreurs de reconnaissance optique). - Soit des brouillons ou notes internes non relus. - Soit des tentatives de masquage d'identité (ex. : comptes partagés, ghostwriting).
Aucun des fichiers ne contient de texte narratif ou de correspondance personnelle (contrairement à d'autres documents du dataset comme EFTA00008870.txt, qui est un log de messages professionnels clair).
2. PROFILS STYLOMÉTRIQUES PAR DOCUMENT
A. EFTA00001094.txt
Contenu : Liste de numéros et codes alphanumériques (ex. : 35020-G-1159B-N908JE-CMH-PBI-779-Pass 1).
Style :
- Absence totale de ponctuation (sauf tirets dans les codes).
- Majuscules aléatoires (CMH, PBI, Pass).
- Chiffres et lettres mélangés sans logique apparente.
- Pas de phrases complètes → Style "machine" ou log technique.
Marqueurs clés :
1. Formatage incohérent : Codes séparés par des tirets sans standardisation.
2. Absence de connecteurs logiques (pas de "et", "ou", "donc").
3. Majuscules erratiques (ex. : Pass vs pass).
Hypothèse : - Document généré automatiquement (log de vol, base de données). - Ou extrait d'un fichier Excel mal exporté.
B. EFTA00001095.txt
Contenu : Liste de noms et numéros de téléphone (ex. : Abby 07944 574 202).
Style :
- Orthographe phonétique (Aldridge Saffron → Aldridge Saffron).
- Caractères spéciaux aléatoires (~, !, ¥).
- Numéros de téléphone avec espaces ou tirets inconsistants.
- Noms parfois tronqués (ex. : Alun..Jones).
Marqueurs clés :
1. Fautes d'orthographe récurrentes (ex. : Amon, Mr Philippe → Amon, Mr Philippe).
2. Inconsistances dans les séparateurs (espaces vs tirets dans les numéros).
3. Caractères parasites (~, ¥, !).
Hypothèse : - Liste de contacts mal OCRisée (problème de reconnaissance de caractères). - Ou document scanné avec des artefacts.
C. EFTA00001096.txt
Contenu : Texte juridique (ex. : UNITED STATES DISTRICT COURT SOUTHERN DISTRICT OF NEW YORK).
Style :
- Texte formel mais avec des erreurs :
- x au lieu de vs (dans UNITED STATES OF AMERICA -v- GHISLAINE MAXWELL).
- S1 20 Cr. 330 (AJN) → format de référence judiciaire incorrect.
- Ponctuation inconsistante (points manquants, espaces avant les deux-points).
- Mots tronqués (ENTICE Minors to Travel to Engage in Illegal Sex Acts → ENTICE seul sur une ligne).
Marqueurs clés : 1. Erreurs de format judiciaire (références de dossiers incorrectes). 2. Ponctuation erratique (espaces avant les deux-points, points manquants). 3. Mots isolés en fin de ligne (signe de découpage OCR).
Hypothèse : - Document juridique scanné et mal converti en texte. - Ou extrait d'un PDF avec des problèmes de mise en page.
D. EFTA00001097.txt
Contenu : Transcription d'audience (ex. : THE FOREPERSON: You do solemnly swear...).
Style :
- Texte structuré mais avec des anomalies :
- MM20-GJ TESTIMONY-000368 → format de référence répétitif.
- Espaces multiples avant/après les deux-points.
- Mots en majuscules aléatoires (CONFIDENTIAL, OPERATION LEAP YEAR).
- Phrases incomplètes (ex. : A seul sur une ligne).
Marqueurs clés :
1. Répétition de formats (MM20-GJ TESTIMONY- suivi de numéros).
2. Espaces superflus (ex. : 1 au lieu de 1).
3. Mots isolés (signe de découpage OCR).
Hypothèse : - Transcription automatique d'audience mal corrigée. - Ou document scanné avec des erreurs de reconnaissance.
E. EFTA00001098.txt
Contenu : Liste de passagers de vol (ex. : Je Epstein Epstein, Je Je Epstein JE Yes).
Style :
- Noms répétés avec variations (Je Epstein vs Epstein, Je).
- Majuscules aléatoires (JE vs Yes).
- Absence de ponctuation (sauf virgules dans les noms).
- Colonnes mal alignées (signe de tableau mal converti).
Marqueurs clés :
1. Variations dans la présentation des noms (ordre inversé vs direct).
2. Majuscules erratiques (JE en majuscules, Yes en majuscules).
3. Alignement incohérent (signe de tableau ou base de données).
Hypothèse : - Log de vol extrait d'un tableau Excel mal formaté. - Ou document scanné avec des colonnes mal reconnues.
3. COMPARAISON AVEC D'AUTRES DOCUMENTS DU DATASET
| Document | Style dominant | Points communs avec EFTA00001094-1098 | Différences |
|---|---|---|---|
| EFTA00008870.txt | Log de messages professionnels | Formatage en colonnes, noms propres | Texte clair, ponctuation correcte |
| EFTA00008998.txt | Document judiciaire (indictment) | Références légales, noms propres | Phrases complètes, ponctuation correcte |
| EFTA00005716.txt | Rapport FBI (formel) | Structure administrative | Texte narratif, ponctuation correcte |
| EFTA00004477.txt | Notes internes (chaotique) | Fautes d'orthographe, caractères parasites | Contenu non structuré (liste de photos) |
Observations :
- Les documents EFTA00001094-1098 partagent des traits chaotiques avec EFTA00004477.txt (notes internes) :
- Fautes d'orthographe.
- Caractères parasites (~, ¥, !).
- Absence de ponctuation.
- Mais : EFTA00001094-1098 sont plus structurés (logs, listes), tandis que EFTA00004477.txt est totalement désorganisé.
4. ALERTES CRITIQUES
[ALERTE 1] : Documents mal OCRisés ou scannés
- Preuves :
- Caractères parasites (
~,¥,!). - Mots tronqués ou isolés.
- Espaces superflus.
- Implications :
- Risque de perte d'informations (mots manquants).
- Difficulté à attribuer un auteur (le style est "machine" ou corrompu).
[ALERTE 2] : Possible masquage d'identité
- Preuves :
- Formats incohérents (ex. :
JEvsJe Epstein). - Majuscules erratiques (signe de tentative de normalisation manuelle).
- Implications :
- Compte partagé (plusieurs styles dans un même document).
- Ghostwriting (certains logs pourraient être générés par un script).
[ALERTE 3] : Documents administratifs vs personnels
- EFTA00001094-1098 sont 100% administratifs (logs, listes, textes juridiques).
- Aucun ne contient de correspondance personnelle (contrairement à d'autres documents du dataset).
- Implications :
- Ces documents ne sont pas des emails ou lettres → difficile à attribuer à un auteur humain.
- Possibilité de comptes automatisés (ex. : logs de vol générés par un système).
5. FICHES STYLOMÉTRIQUES PAR AUTEUR POTENTIEL
A. Jeffrey Epstein (hypothétique)
Marqueurs attendus (basés sur d'autres documents du dataset) : 1. Formules d'ouverture : "Dear [Nom]" (ex. : EFTA00008899.txt). 2. Ton direct et autoritaire (ex. : EFTA00008870.txt). 3. Utilisation de "I" et "we" (pronoms personnels). 4. Ponctuation correcte (points, virgules). 5. Vocabulaire financier/technique (ex. : "stock trading", "real estate").
Comparaison avec EFTA00001094-1098 : - Aucun marqueur ne correspond → Ces documents ne sont PAS de Jeffrey Epstein.
B. Ghislaine Maxwell (hypothétique)
Marqueurs attendus (basés sur EFTA00008998.txt) : 1. Style formel mais avec des erreurs (ex. : "MAXWELL repeatedly lied"). 2. Utilisation de "the defendant" (référence juridique). 3. Phrases longues et complexes. 4. Majuscules pour les noms propres (ex. : "GHISLAINE MAXWELL").
Comparaison avec EFTA00001094-1098 : - Aucun marqueur ne correspond → Ces documents ne sont PAS de Ghislaine Maxwell.
C. Comptes automatisés ou partagés
Marqueurs observés dans EFTA00001094-1098 :
1. Formatage incohérent (ex. : 35020-G-1159B-N908JE-CMH-PBI-779-Pass 1).
2. Absence de ponctuation (sauf tirets dans les codes).
3. Majuscules aléatoires (ex. : JE vs Yes).
4. Répétition de patterns (ex. : MM20-GJ TESTIMONY-).
5. Caractères parasites (~, ¥, !).
Conclusion : - Ces documents sont très probablement générés par un système (log de vol, base de données, OCR mal corrigé). - Ou partagés entre plusieurs utilisateurs (style "machine" + erreurs humaines).
6. RECOMMANDATIONS
Pour l'analyse future :
- Vérifier l'origine des documents :
- Sont-ils des scans ? → Utiliser un outil de OCR avanc
EpsteinFiles & Co — Stylometer