組織スライドからがんを診断するよう設計された人工知能システムが、患者の人口統計を推測することを学習しており、人種、性別、年齢グループ間で診断パフォーマンスに不均衡が生じている。ハーバード・メディカル・スクールの研究者と共同研究者がこの問題を特定し、これらの格差を大幅に低減する手法を開発し、医療AIにおけるルーチンのバイアスチェックの必要性を強調した。
病理学は長年にわたり、がん診断のために顕微鏡下で薄い組織スライスを検査することに依存してきましたが、このプロセスは通常、人間の目には患者の人口統計的特徴を明らかにしません。しかし、新しい研究では、病理ラボに入るAIモデルはこの制限を共有していないことが示されています。
ハーバード・メディカル・スクールのBlavatnik Instituteで生体医工学情報学の准教授であり、Brigham and Women's Hospitalのパソロジー助教授であるKun-Hsing Yu氏が主導した研究では、がん診断のためのラベル付けされた大規模スライドコレクションで訓練された標準的な深層学習病理システムをいくつか分析しました。
ハーバード・メディカル・スクールとCell Reports Medicineに掲載された研究によると、チームは20種類のがんの病理スライドの大規模多施設リポジトリで、一般的に使用される4つの病理AIモデルを評価しました。
研究者らは、患者の自己申告人種、性別、年齢で定義された人口統計グループ間で、4つのモデルのすべてが不均等なパフォーマンスを示したことを発見しました。全がん分析では、診断タスクの約29%で有意なパフォーマンス格差が特定されました。
News-Medicalを含むメディアのフォローアップ報道によると、肺がんおよび乳がんの特定のサブタイプタスクで特に顕著で、アフリカ系アメリカ人と一部の男性患者で肺がん区別が低パフォーマンスを示し、若年患者で複数の乳がんサブタイプ区別が低かった。
研究チームはこれらのギャップをいくつかの要因に帰しました。一つは訓練データでの人口統計グループの不均等な表現です。もう一つは集団間の疾患発生率と生物学の違いです。Cell Reports Medicineの論文はさらに、集団間の体細胞変異の有病率の変動がパフォーマンス格差に寄与したと報告し、モデルが疾患だけでなく人口統計に関連した微妙な分子パターンを捉えていたことを示唆しています。
「病理スライドから人口統計を読むことは人間のパソロジストにとって『不可能なミッション』と考えられており、病理AIのバイアスは私たちにとって驚きでした」とYu氏はハーバード・メディカル・スクールによると述べました。
問題に対処するため、研究者らはFAIR-Path(Fairness-aware Artificial Intelligence Review for Pathology)を開発しました。これは、対比学習として知られる既存の機械学習概念に基づくバイアス軽減フレームワークです。このアプローチは、がんタイプ間の違いを強調しつつ、人口統計カテゴリに関連した違いを軽視するようモデルを促します。
Cell Reports Medicineの研究では、FAIR-Pathは主要な全がん分析で人口統計グループ間の測定されたパフォーマンス格差の88.5%を軽減し、15の独立コホートでの外部検証で91.1%のパフォーマンスギャップを低減しました。
Yu氏と同僚らは、FAIR-Pathが完全にバランスの取れたデータセットを必要とせず、既存のモデル訓練パイプラインに比較的控えめな変更で公平性を向上させたことを報告しています。
2025年12月16日にCell Reports Medicineに記述されたこの研究は、臨床ケアに展開される前に医療AIシステムを人口統計バイアスで体系的にテストすることの重要性を強調しています。
ハーバード・メディカル・スクールとSciTechDailyのフォローアップ報道によると、チームは現在、データが限られた設定へのFAIR-Pathの拡張を探求し、AI駆動のバイアスが健康アウトカムのより広範な格差にどのように寄与するかをよりよく理解しようとしています。彼らの長期目標は、あらゆる背景の患者に迅速で正確かつ公平な診断を提供する人間の専門家を支援する病理AIツールを開発することです。