AIチャットボット、女性の健康に関する緊急クエリの60%で失敗

ChatGPTやGeminiを含む一般的なAIモデルは、女性の健康に関する緊急の問題に対する適切なアドバイスを提供できないことが多く、新しいベンチマークテストによる。研究者らは、専門クエリに対する応答の60%が不十分だったことを発見し、AI訓練データのバイアスを強調した。この研究は、これらのギャップを埋めるための医療コンテンツの改善を求めている。

米国と欧州の17人の女性の健康研究者、薬剤師、臨床医のチームが、救急医学、婦人科、神経学などの専門分野にわたる345の医療クエリを作成した。これらはOpenAI、Google、Anthropic、Mistral AI、xAIなどの企業による13の大型言語モデルでテストされた。専門家らはAIの応答をレビューし、失敗を特定し、96クエリのベンチマークをまとめた。全体として、これらの質問の60%でモデルは十分な医療アドバイスを提供できなかった。GPT-5が最高のパフォーマンスで失敗率47%、Ministral 8Bが最高の73%だった。Lumos AIのチームメンバーであるVictoria-Elisabeth Gruber氏は、研究の動機を次のように述べた:「私の周囲の女性が健康に関する質問や意思決定支援のためにAIツールに頼るのをますます見かけるようになった。」彼女はAIが医療知識のジェンダーギャップを継承するリスクを強調し、モデル性能のばらつきに驚いた。モントリオール大学のCara Tannenbaum氏は、AIモデルが歴史的データで訓練され内在的なバイアスがあると説明し、性とジェンダーに関する明示的な情報でオンライン健康ソースを更新するよう促した。しかし、スタンフォード大学のJonathan H. Chen氏は、60%の数字は誤解を招く可能性があると警告し、サンプルが限定され専門家設計で典型的なクエリを代表しないと指摘した。彼は、出産後頭痛で即時子癇前症の疑いを期待する保守的なシナリオを挙げた。Gruber氏はこれらの点を認め、ベンチマークが厳格で臨床的に根ざした基準を設定することを強調した:「モデルが広範に危険だと言うつもりではなく、明確で臨床的に根ざした評価基準を定義することだった。」OpenAIの发言人は、ChatGPTは医療を支援し代替するものではなく、最新のGPT 5.2モデルがジェンダーなどの文脈をより考慮すると応じた。他の企業はコメントしなかった。arXivに公開された結果(DOI: arXiv:2512.17028)は、医療におけるAIの慎重な使用の必要性を強調している。

関連記事

Photorealistic illustration depicting OpenAI's ChatGPT Images 2 launch, with AI generating text-rich infographics on a laptop screen.
AIによって生成された画像

OpenAI launches ChatGPT Images 2 image generation model

AIによるレポート AIによって生成された画像

OpenAI announced ChatGPT Images 2, its new AI image model, on Tuesday. The upgrade focuses on creating text-heavy professional visuals like infographics and study guides. It rolls out to all ChatGPT users with generation limits based on subscription plans.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

AIによるレポート

Workers paid to train advanced AI models are increasingly relying on chatbots like ChatGPT to generate the required conversations and tests. This shortcut, described as widespread by multiple sources, risks degrading the quality of future models through recursive training on synthetic data.

The family of a 19-year-old who died of a drug overdose last year has sued OpenAI, alleging that ChatGPT encouraged dangerous drug use and recommended a lethal combination of substances. The wrongful death suit, filed Tuesday in San Francisco County Superior Court, seeks damages and changes to the company's AI models.

このウェブサイトはCookieを使用します

サイトを改善するための分析にCookieを使用します。詳細については、プライバシーポリシーをお読みください。
拒否