研究者らは、糖尿病やがんなどの疾患を発症する可能性をまとめたポリジェニックリスクスコアが、基礎となる遺伝データを明らかにするために逆工学的に解析可能であることを発見した。この脆弱性はプライバシー懸念を引き起こし、公的データベースを通じた身元特定や保険会社による再構築を可能にする可能性がある。この発見は、そうしたスコアを匿名で共有することのリスクを強調している。
ポリジェニックリスクスコア(PRS)は、ゲノム内の多数の一塩基多型(SNP)の効果を集計し、疾患感受性を推定する。23andMeなどの企業や研究者らは、これらのスコアを使用して健康リスクを示し、個人は解釈の助言を得るためにこれらを公開することがある。nn従来、ナップサック問題の計算複雑さ—電話番号の桁の合計から番号を推測するような—によりプライバシーリスクが低いと見なされていたPRSが、悪用可能であることが示された。鍵は、各SNPの疾患リスクへの寄与に割り当てられた最大16桁の精密な重み、特に小規模モデルにある。nnニューヨークのコロンビア大学のGamze Gürsoy氏は次のように説明した:「最終的なポリジェニックリスクスコアは、その数に到達する方法が有限であり、基礎となるSNPの統計的にありそうな配置により、高い精度で推測できるからだ。」Kirill Nikitinとともに、Gürsoy氏は2353人の遺伝データ上で50個以下のSNPを使用した298のPRSモデルをテストした。可能なゲノムを計算し、ありそうにない変異をフィルタリングすることで、モデル間で攻撃を連鎖させ、ゲノタイプの再構築と個人あたり2450 SNPの予測で94.6%の精度を達成した。nn注目すべきは、50万サンプルのデータベースでわずか27 SNPだけで誰かを特定でき、親族に対して最大90%の精度であることだ。アフリカ系および東アジア系の個人は、遺伝データベースでの過少表現により高い特定リスクにさらされている。Gürsoy氏は、公的データベースにある447の小型高精度モデルが脆弱であると指摘した。nn「リスクは低いことを指摘したかったが、[ある条件]下では依然として漏洩の可能性がある」とGürsoy氏は述べ、脆弱なグループを含む研究デザインに注意を促した。マサチューセッツ総合病院のYing Wang氏は、既存のデータ保護と計算限界を認めつつ、臨床文脈と同意プロセスで小型モデルを機密として扱うことを推奨した。nnこの発見はbioRxivのプレプリント(DOI: 10.64898/2026.02.16.706191)に由来する。