ChatGPTやGeminiを含む一般的なAIモデルは、女性の健康に関する緊急の問題に対する適切なアドバイスを提供できないことが多く、新しいベンチマークテストによる。研究者らは、専門クエリに対する応答の60%が不十分だったことを発見し、AI訓練データのバイアスを強調した。この研究は、これらのギャップを埋めるための医療コンテンツの改善を求めている。
米国と欧州の17人の女性の健康研究者、薬剤師、臨床医のチームが、救急医学、婦人科、神経学などの専門分野にわたる345の医療クエリを作成した。これらはOpenAI、Google、Anthropic、Mistral AI、xAIなどの企業による13の大型言語モデルでテストされた。専門家らはAIの応答をレビューし、失敗を特定し、96クエリのベンチマークをまとめた。全体として、これらの質問の60%でモデルは十分な医療アドバイスを提供できなかった。GPT-5が最高のパフォーマンスで失敗率47%、Ministral 8Bが最高の73%だった。Lumos AIのチームメンバーであるVictoria-Elisabeth Gruber氏は、研究の動機を次のように述べた:「私の周囲の女性が健康に関する質問や意思決定支援のためにAIツールに頼るのをますます見かけるようになった。」彼女はAIが医療知識のジェンダーギャップを継承するリスクを強調し、モデル性能のばらつきに驚いた。モントリオール大学のCara Tannenbaum氏は、AIモデルが歴史的データで訓練され内在的なバイアスがあると説明し、性とジェンダーに関する明示的な情報でオンライン健康ソースを更新するよう促した。しかし、スタンフォード大学のJonathan H. Chen氏は、60%の数字は誤解を招く可能性があると警告し、サンプルが限定され専門家設計で典型的なクエリを代表しないと指摘した。彼は、出産後頭痛で即時子癇前症の疑いを期待する保守的なシナリオを挙げた。Gruber氏はこれらの点を認め、ベンチマークが厳格で臨床的に根ざした基準を設定することを強調した:「モデルが広範に危険だと言うつもりではなく、明確で臨床的に根ざした評価基準を定義することだった。」OpenAIの发言人は、ChatGPTは医療を支援し代替するものではなく、最新のGPT 5.2モデルがジェンダーなどの文脈をより考慮すると応じた。他の企業はコメントしなかった。arXivに公開された結果(DOI: arXiv:2512.17028)は、医療におけるAIの慎重な使用の必要性を強調している。