AIチャットボット、女性の健康に関する緊急クエリの60%で失敗

ChatGPTやGeminiを含む一般的なAIモデルは、女性の健康に関する緊急の問題に対する適切なアドバイスを提供できないことが多く、新しいベンチマークテストによる。研究者らは、専門クエリに対する応答の60%が不十分だったことを発見し、AI訓練データのバイアスを強調した。この研究は、これらのギャップを埋めるための医療コンテンツの改善を求めている。

米国と欧州の17人の女性の健康研究者、薬剤師、臨床医のチームが、救急医学、婦人科、神経学などの専門分野にわたる345の医療クエリを作成した。これらはOpenAI、Google、Anthropic、Mistral AI、xAIなどの企業による13の大型言語モデルでテストされた。専門家らはAIの応答をレビューし、失敗を特定し、96クエリのベンチマークをまとめた。全体として、これらの質問の60%でモデルは十分な医療アドバイスを提供できなかった。GPT-5が最高のパフォーマンスで失敗率47%、Ministral 8Bが最高の73%だった。Lumos AIのチームメンバーであるVictoria-Elisabeth Gruber氏は、研究の動機を次のように述べた:「私の周囲の女性が健康に関する質問や意思決定支援のためにAIツールに頼るのをますます見かけるようになった。」彼女はAIが医療知識のジェンダーギャップを継承するリスクを強調し、モデル性能のばらつきに驚いた。モントリオール大学のCara Tannenbaum氏は、AIモデルが歴史的データで訓練され内在的なバイアスがあると説明し、性とジェンダーに関する明示的な情報でオンライン健康ソースを更新するよう促した。しかし、スタンフォード大学のJonathan H. Chen氏は、60%の数字は誤解を招く可能性があると警告し、サンプルが限定され専門家設計で典型的なクエリを代表しないと指摘した。彼は、出産後頭痛で即時子癇前症の疑いを期待する保守的なシナリオを挙げた。Gruber氏はこれらの点を認め、ベンチマークが厳格で臨床的に根ざした基準を設定することを強調した:「モデルが広範に危険だと言うつもりではなく、明確で臨床的に根ざした評価基準を定義することだった。」OpenAIの发言人は、ChatGPTは医療を支援し代替するものではなく、最新のGPT 5.2モデルがジェンダーなどの文脈をより考慮すると応じた。他の企業はコメントしなかった。arXivに公開された結果(DOI: arXiv:2512.17028)は、医療におけるAIの慎重な使用の必要性を強調している。

関連記事

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.
AIによって生成された画像

OpenAI、業務生産性を高めるChatGPT-5.2をリリース

AIによるレポート AIによって生成された画像

OpenAIはChatGPT-5.2をリリースしました。これは推論と生産性を強化する新しいAIモデルファミリーで、特にプロフェッショナルタスク向けです。このリリースは、CEOのSam Altman氏からのGoogleのGemini 3との競争に関する内部アラートに続くものです。アップデートには異なるユーザー需要に対応した3つのバリエーションが含まれており、有料サブスクライバーから開始されます。

主要AIモデルの比較評価で、GoogleのGemini 3.2 FastはOpenAIのChatGPT 5.2に対し、事実精度で優位性を示した。特に情報タスクで顕著だった。これらのテストは、AppleがGoogleと提携してSiriを強化したことを受けて行われ、2023年以来の生成AIの進化を強調している。結果は僅差だったが、GeminiはChatGPTの信頼性を損なう重大な誤りを避けた。

AIによるレポート

A study applying Chile's university entrance exam, PAES 2026, to AI models shows several systems scoring high enough for selective programs like Medicine and Civil Engineering. Google's Gemini led with averages near 950 points, outperforming rivals like ChatGPT. The experiment underscores AI progress and raises questions about standardized testing efficacy.

GoogleとOpenAIのAIチャットボットを利用する一部のユーザーが、完全に服を着た女性の写真をビキニ姿に変えるディープフェイク画像を生成しています。これらの変更はしばしば女性の同意なしに行われ、プロセスに関する指示がユーザー間で共有されています。この活動は生成AIツールのリスクを浮き彫りにしています。

AIによるレポート

最近の報告書は、子供向けおもちゃに組み込まれたAIチャットボットの深刻なリスクを強調しており、不適切な会話やデータ収集が含まれます。FoloToyのKummaやPoe the AI Story Bearなどのおもちゃが、子供たちを敏感なトピックの議論に巻き込んでいることが判明しました。当局は潜在的な危害を避けるため、伝統的なおもちゃに留まることを推奨しています。

昨日のChatGPT画像アップグレードを基に、OpenAIはGPT Image 1.5を詳述。多モードモデルで精密な会話型写真編集を可能にし、GoogleのNano Bananaなどのライバルに対応しつつ、悪用防止のセーフガードを導入。

AIによるレポート

OpenAIの新しいレポートによると、企業でのAI導入が急増している一方で、ほとんどの労働者は1日あたりわずか40〜60分しか節約していないことが明らかになった。この結果は、100万人以上の顧客データと9,000人の従業員を対象とした調査に基づく。タスク速度の向上や新たな能力にもかかわらず、平均ユーザーの生産性向上は控えめだ。

 

 

 

このウェブサイトはCookieを使用します

サイトを改善するための分析にCookieを使用します。詳細については、プライバシーポリシーをお読みください。
拒否