Des chercheurs ont découvert que les scores de risque polygéniques, qui résument la probabilité qu'une personne développe des maladies comme le diabète et le cancer, peuvent être inversés pour révéler les données génétiques sous-jacentes. Cette vulnérabilité soulève des préoccupations en matière de confidentialité, permettant potentiellement l'identification via des bases de données publiques ou la reconstruction par des assureurs. Cette découverte met en lumière les risques liés au partage de ces scores, même de manière anonyme.
Les scores de risque polygéniques (PRS) agrègent les effets de nombreux polymorphismes nucléotidiques simples (SNP) dans le génome pour estimer les prédispositions aux maladies. Des entreprises comme 23andMe et des chercheurs utilisent ces scores pour décrire les risques pour la santé, et les individus les partagent parfois publiquement pour obtenir des conseils d'interprétation »n »nTraditionnellement considérés comme peu risqués pour la confidentialité en raison de la complexité computationnelle du problème du sac à dos — comparable à la déduction d'un numéro de téléphone à partir de la somme de ses chiffres —, les PRS sont maintenant montrés comme exploitables. La clé réside dans les poids précis, jusqu'à 16 chiffres, assignés à la contribution de chaque SNP au risque de maladie, particulièrement dans les modèles plus petits. »n »nGamze Gürsoy à l'université Columbia à New York a expliqué : « Parce que le score de risque polygénique final est contraint par un nombre fini de façons d'arriver à ce nombre, et un arrangement statistiquement probable des SNP sous-jacents, il peut être déduit avec un haut degré de précision. » Aux côtés de Kirill Nikitin, Gürsoy a testé 298 modèles PRS utilisant 50 SNP ou moins sur des données génétiques de 2353 individus. En calculant des génomes possibles et en filtrant les mutations improbables, ils ont enchaîné des attaques à travers les modèles, atteignant 94,6 % de précision dans la reconstruction des génotypes et la prédiction de 2450 SNP par personne. »n »nNotamment, seulement 27 SNP ont suffi pour identifier quelqu'un dans une base de données de 500 000 échantillons, avec jusqu'à 90 % de précision pour les parents. Les individus d'ascendance africaine et est-asiatique faisaient face à des risques d'identification plus élevés en raison de la sous-représentation dans les bases de données génétiques. Gürsoy a noté que 447 modèles petits et de haute précision dans une base de données publique sont vulnérables. »n »n« Nous voulions souligner que le risque est faible, mais sous [certaines conditions], il pourrait y avoir encore des fuites », a déclaré Gürsoy, exhortant à la prudence dans les conceptions de recherche impliquant des groupes vulnérables. Ying Wang au Massachusetts General Hospital a reconnu les protections de données existantes et les limites computationnelles mais a recommandé de traiter les petits modèles comme sensibles dans les contextes cliniques et les processus de consentement. »n »nLes résultats proviennent d'un preprint sur bioRxiv (DOI : 10.64898/2026.02.16.706191).