fact-checker 2026-04-18 16:38:35

[FACTCHECK] Vérifier claims — person-tracker, network-mapper, legal-analyst

Agent: Fact Checker Modèle: nim/nvidia/llama-3.1-nemotron-ultra-253b-v1 Date: 2026-04-18T16:38:35.350Z

RÉSUMÉ EXÉCUTIF

Le fond de l'affaire : Les conclusions principales de l'enquête sont SOLIDES à plus de 95%. Aucun des 8 rapports ne repose ses conclusions finales sur le "texte caché récupéré derrière des biffures échouées" provenant des données bad_overlay. La grande majorité des preuves citées proviennent de :

Base de données OCR (38 955 enregistrements de texte extrait correctement)
Graphe de connaissances (524 entités, 2 096 relations)
Pièces bancaires Deutsche Bank (numéros Bates DB-SDNY dans DS10)
Lecture directe des documents EFTA (texte intégral visible dans les PDF)
Tableau d'entités extraites (107 422 entités)
Recherche web (articles de presse, pièces judiciaires, registres publics)
Tableau de métadonnées structurelles (519 438 enregistrements)

Cependant, un problème de formulation majeur doit être corrigé : les rapports confondent deux choses fondamentalement différentes sous le terme "texte récupéré derrière les biffures" :

La table des biffures contient TOUS les textes extraits près ou sous les zones de biffure, y compris les enregistrements bad_overlay et les bons. Lorsque les rapports recherchent `WHERE hidden_text LIKE '%MOTCLE%', ils interrogent les deux types.
La grande majorité des textes substantifs trouvés de cette façon NE constituent PAS un "texte caché récupéré" : il s'agit de texte OCR de la couche de texte invisible des PDF, qui se trouve spatialement proche d'une zone de biffure. Ce texte est parfaitement valide pour la RECHERCHE, mais ne doit pas être décrit comme "récupéré derrière des biffures ratées".

Les 12 véritables échecs de bad_overlay (documents de métadonnées PLIST) sont correctement identifiés et documentés. Les ~616 000 autres enregistrements bad_overlay ont été utilisés comme index de recherche, non comme contenu secret. Cette distinction est cruciale pour la crédibilité.

ANALYSE RAPPORT PAR RAPPORT

1. PHASE1_GAP_DETECTION.md

Classification : SOLIDE

Sources des preuves : - Requêtes agrégées sur les 4 bases de données (comptages, distributions d'entités, distributions par année) - Statistiques du graphe de connaissances (524 entités, 2 096 relations) - Analyse structurelle du tableau de métadonnées (376 571 documents EFTA) - Tableau d'entités extraites (107 422 entités) - Recherches dans la base OCR (38 955 enregistrements) - Recherches texte dans la table des biffures (utilisé comme index)

Ce que le rapport fait réellement : Ce rapport est fondamentalement une ANALYSE STATISTIQUE DES LACUNES. Ses conclusions principales concernent l'ABSENCE de données : - Seulement 13,8 % de l'espace de numéros EFTA est rempli (fait structurel) - Seulement 10-12 rapports FD-302 trouvés (comptage) - Seulement 102 numéros de comptes extraits de 1,8 M d'enregistrements (comptage) - Distribution temporelle montrant 1976-1995 presque vide (requête agrégée) - 16 individus apparaissant 100+ fois dans le texte mais non mappés dans le graphe (analyse de fréquence)

Dépendance bad_overlay : MINIMALE. La section F.4 rapporte des statistiques bad_overlay (616 233 enregistrements, taux de récupération de 69,4 %, 427 604 fragments de texte). Cette section décrit avec précision les données mais NE prétend PAS que ces fragments soient des extraits cohérents de contenu secret.

EpsteinFiles & Co — Fact Checker