AIチャットボット、女性の健康に関する緊急クエリの60％で失敗

2026年01月07日(水)

AIによるレポート

ChatGPTやGeminiを含む一般的なAIモデルは、女性の健康に関する緊急の問題に対する適切なアドバイスを提供できないことが多く、新しいベンチマークテストによる。研究者らは、専門クエリに対する応答の60％が不十分だったことを発見し、AI訓練データのバイアスを強調した。この研究は、これらのギャップを埋めるための医療コンテンツの改善を求めている。

米国と欧州の17人の女性の健康研究者、薬剤師、臨床医のチームが、救急医学、婦人科、神経学などの専門分野にわたる345の医療クエリを作成した。これらはOpenAI、Google、Anthropic、Mistral AI、xAIなどの企業による13の大型言語モデルでテストされた。専門家らはAIの応答をレビューし、失敗を特定し、96クエリのベンチマークをまとめた。全体として、これらの質問の60％でモデルは十分な医療アドバイスを提供できなかった。GPT-5が最高のパフォーマンスで失敗率47％、Ministral 8Bが最高の73％だった。Lumos AIのチームメンバーであるVictoria-Elisabeth Gruber氏は、研究の動機を次のように述べた：「私の周囲の女性が健康に関する質問や意思決定支援のためにAIツールに頼るのをますます見かけるようになった。」彼女はAIが医療知識のジェンダーギャップを継承するリスクを強調し、モデル性能のばらつきに驚いた。モントリオール大学のCara Tannenbaum氏は、AIモデルが歴史的データで訓練され内在的なバイアスがあると説明し、性とジェンダーに関する明示的な情報でオンライン健康ソースを更新するよう促した。しかし、スタンフォード大学のJonathan H. Chen氏は、60％の数字は誤解を招く可能性があると警告し、サンプルが限定され専門家設計で典型的なクエリを代表しないと指摘した。彼は、出産後頭痛で即時子癇前症の疑いを期待する保守的なシナリオを挙げた。Gruber氏はこれらの点を認め、ベンチマークが厳格で臨床的に根ざした基準を設定することを強調した：「モデルが広範に危険だと言うつもりではなく、明確で臨床的に根ざした評価基準を定義することだった。」OpenAIの发言人は、ChatGPTは医療を支援し代替するものではなく、最新のGPT 5.2モデルがジェンダーなどの文脈をより考慮すると応じた。他の企業はコメントしなかった。arXivに公開された結果（DOI: arXiv:2512.17028）は、医療におけるAIの慎重な使用の必要性を強調している。

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.

OpenAI、業務生産性を高めるChatGPT-5.2をリリース

2025年12月11日(木) AIによるレポート AIによって生成された画像

OpenAIはChatGPT-5.2をリリースしました。これは推論と生産性を強化する新しいAIモデルファミリーで、特にプロフェッショナルタスク向けです。このリリースは、CEOのSam Altman氏からのGoogleのGemini 3との競争に関する内部アラートに続くものです。アップデートには異なるユーザー需要に対応した3つのバリエーションが含まれており、有料サブスクライバーから開始されます。

GoogleのGeminiが主要AIテストでChatGPTを上回る

主要AIモデルの比較評価で、GoogleのGemini 3.2 FastはOpenAIのChatGPT 5.2に対し、事実精度で優位性を示した。特に情報タスクで顕著だった。これらのテストは、AppleがGoogleと提携してSiriを強化したことを受けて行われ、2023年以来の生成AIの進化を強調している。結果は僅差だったが、GeminiはChatGPTの信頼性を損なう重大な誤りを避けた。

AI models surpass cutoff scores in Chile's PAES 2026 test

2026年01月08日(木) AIによるレポート

A study applying Chile's university entrance exam, PAES 2026, to AI models shows several systems scoring high enough for selective programs like Medicine and Civil Engineering. Google's Gemini led with averages near 950 points, outperforming rivals like ChatGPT. The experiment underscores AI progress and raises questions about standardized testing efficacy.

政治