AIチャットボット、女性の健康に関する緊急クエリの60%で失敗

ChatGPTやGeminiを含む一般的なAIモデルは、女性の健康に関する緊急の問題に対する適切なアドバイスを提供できないことが多く、新しいベンチマークテストによる。研究者らは、専門クエリに対する応答の60%が不十分だったことを発見し、AI訓練データのバイアスを強調した。この研究は、これらのギャップを埋めるための医療コンテンツの改善を求めている。

米国と欧州の17人の女性の健康研究者、薬剤師、臨床医のチームが、救急医学、婦人科、神経学などの専門分野にわたる345の医療クエリを作成した。これらはOpenAI、Google、Anthropic、Mistral AI、xAIなどの企業による13の大型言語モデルでテストされた。専門家らはAIの応答をレビューし、失敗を特定し、96クエリのベンチマークをまとめた。全体として、これらの質問の60%でモデルは十分な医療アドバイスを提供できなかった。GPT-5が最高のパフォーマンスで失敗率47%、Ministral 8Bが最高の73%だった。Lumos AIのチームメンバーであるVictoria-Elisabeth Gruber氏は、研究の動機を次のように述べた:「私の周囲の女性が健康に関する質問や意思決定支援のためにAIツールに頼るのをますます見かけるようになった。」彼女はAIが医療知識のジェンダーギャップを継承するリスクを強調し、モデル性能のばらつきに驚いた。モントリオール大学のCara Tannenbaum氏は、AIモデルが歴史的データで訓練され内在的なバイアスがあると説明し、性とジェンダーに関する明示的な情報でオンライン健康ソースを更新するよう促した。しかし、スタンフォード大学のJonathan H. Chen氏は、60%の数字は誤解を招く可能性があると警告し、サンプルが限定され専門家設計で典型的なクエリを代表しないと指摘した。彼は、出産後頭痛で即時子癇前症の疑いを期待する保守的なシナリオを挙げた。Gruber氏はこれらの点を認め、ベンチマークが厳格で臨床的に根ざした基準を設定することを強調した:「モデルが広範に危険だと言うつもりではなく、明確で臨床的に根ざした評価基準を定義することだった。」OpenAIの发言人は、ChatGPTは医療を支援し代替するものではなく、最新のGPT 5.2モデルがジェンダーなどの文脈をより考慮すると応じた。他の企業はコメントしなかった。arXivに公開された結果(DOI: arXiv:2512.17028)は、医療におけるAIの慎重な使用の必要性を強調している。

関連記事

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
AIによって生成された画像

Increased AI chatbot use among Swedes – but also concerns

AIによるレポート AIによって生成された画像

According to the latest SOM survey from the University of Gothenburg, the share of Swedes chatting with an AI bot weekly rose from 12 to 36 percent between 2024 and 2025. At the same time, skepticism toward AI has grown, with 62 percent viewing it as a greater risk than opportunity for society.

主要AIモデルの比較評価で、GoogleのGemini 3.2 FastはOpenAIのChatGPT 5.2に対し、事実精度で優位性を示した。特に情報タスクで顕著だった。これらのテストは、AppleがGoogleと提携してSiriを強化したことを受けて行われ、2023年以来の生成AIの進化を強調している。結果は僅差だったが、GeminiはChatGPTの信頼性を損なう重大な誤りを避けた。

AIによるレポート

ブラウン大学の新たな研究は、ChatGPTのようなAIチャットボットをメンタルヘルスアドバイスに使用することの重大な倫理的懸念を指摘。研究者らは、これらのシステムはセラピストとして振る舞うよう促されても専門基準をしばしば侵害すると発見。こうしたツールを敏感な領域に展開する前に、より良いセーフガードが必要だと呼びかけている。

ガーディアン紙の報道によると、OpenAIの最新AIモデルGPT-5.2は、ホロコーストやイラン政治などの敏感な問題を扱う際に、xAI駆動のオンライン百科事典Grokipediaを参照していることが明らかになった。プロフェッショナルなタスク向けに宣伝されているが、テストではソースの信頼性が疑問視されている。OpenAIは広範なウェブ検索と安全対策を強調して対応を擁護している。

AIによるレポート

研究者らは、主要なAIモデルが火災、爆発、または中毒を引き起こす危険な科学実験を奨励する可能性があると警告している。19の先進モデルに対する新たなテストでは、いずれもすべての安全問題を確実に特定できなかったことが明らかになった。改善が進んでいるものの、専門家らは実験室での人間の監督の必要性を強調している。

OpenAIは、計画していたChatGPTの「成人向けモード」を無期限に凍結し、主要製品に注力することを決定した。この決定は、動画生成AIツール「Sora」の開発中止から数日後のことである。サム・アルトマンCEOは、競争が激化する中で、ChatGPT、Codex、およびAIブラウザ「Atlas」を優先する方針を固めている。

AIによるレポート

OpenAIはChatGPT向け画像生成モデルを更新し、4倍高速化しユーザー指示の追従性を向上させました。アップグレードには編集機能の改善とテキストレンダリングの強化が含まれます。これはGPT-5.2のリリース直後、GoogleのGeminiとの競争の中で行われます。

 

 

 

このウェブサイトはCookieを使用します

サイトを改善するための分析にCookieを使用します。詳細については、プライバシーポリシーをお読みください。
拒否