Pesquisadores descobriram que escores de risco poligênicos, que resumem a probabilidade de uma pessoa desenvolver doenças como diabetes e câncer, podem ser engenheirados reversamente para revelar dados genéticos subjacentes. Essa vulnerabilidade levanta preocupações com privacidade, podendo permitir a identificação por meio de bancos de dados públicos ou a reconstrução por seguradoras. A descoberta destaca riscos no compartilhamento desses escores, mesmo de forma anônima.
Escores de risco poligênicos (PRS) agregam os efeitos de numerosos polimorfismos de nucleotídeo único (SNPs) no genoma para estimar predisposições a doenças. Empresas como 23andMe e pesquisadores usam esses escores para delinear riscos à saúde, e indivíduos às vezes os compartilham publicamente para obter conselhos de interpretação. Tradicionalmente vistos como de baixo risco para privacidade devido à complexidade computacional do problema da mochila — semelhante a deduzir um número de telefone a partir da soma de seus dígitos —, os PRS agora são mostrados como exploráveis. A chave está nos pesos precisos, de até 16 dígitos, atribuídos à contribuição de cada SNP para o risco de doença, particularmente em modelos menores. Gamze Gürsoy, da Universidade Columbia em Nova Iorque, explicou: “Porque o escore de risco poligênico final é limitado por um número finito de maneiras de chegar a esse número, e um arranjo estatisticamente provável dos SNPs subjacentes, ele pode ser deduzido com alto grau de precisão.” Ao lado de Kirill Nikitin, Gürsoy testou 298 modelos de PRS usando 50 ou menos SNPs em dados genéticos de 2353 indivíduos. Calculando genomas possíveis e filtrando mutações improváveis, eles encadearam ataques através de modelos, alcançando 94,6% de precisão na reconstrução de genótipos e previsão de 2450 SNPs por pessoa. Notavelmente, apenas 27 SNPs foram suficientes para identificar alguém em um banco de dados de 500.000 amostras, com até 90% de precisão para parentes. Indivíduos de descendência africana e leste-asiática enfrentaram riscos maiores de identificação devido à sub-representação em bancos de dados genéticos. Gürsoy observou que 447 modelos pequenos e de alta precisão em um banco de dados público são vulneráveis. “Queríamos apontar que o risco é baixo, mas sob certas condições, ainda pode haver algum vazamento”, disse Gürsoy, instando cautela em designs de pesquisa envolvendo grupos vulneráveis. Ying Wang, do Massachusetts General Hospital, reconheceu as proteções existentes de dados e limites computacionais, mas recomendou tratar modelos pequenos como sensíveis em contextos clínicos e processos de consentimento. As descobertas provêm de um preprint no bioRxiv (DOI: 10.64898/2026.02.16.706191).