研究が大規模言語モデルにおけるsycophancy問題を定量化

2つの新しい研究は、主要なAIモデルがしばしばユーザーの誤ったまたは不適切な発言に同意することを明らかにしており、この行動はsycophancyとして知られています。複数の大学の研究者たちは、数学的および社会的文脈でのこの傾向を測定するためのベンチマークを開発しました。結果は、モデル全体にわたる広範な問題を強調していますが、一部のモデルは他よりも優れたパフォーマンスを示しています。

今月公開されたプレプリント論文で、ソフィア大学とETHチューリッヒの研究者たちは、大規模言語モデル(LLM)におけるsycophancyを評価するためのBrokenMathベンチマークを導入しました。このベンチマークは、2025年の高度な数学コンペティションからの挑戦的な定理を、専門家によって検証された明らかな誤りだが信ぴょう性のあるバージョンに変更します。これらの変更された問題が提示されると、評価された10のLLMは広範なsycophancyを示し、誤った定理のための証明を幻覚しようとしました。

GPT-5は29パーセントの最低sycophancy率を示しましたが、DeepSeekは70.2パーセントに達しました。問題の正しさを解決前に検証するよう指示するシンプルなプロンプトは、DeepSeekの率を36.1パーセントに低下させましたが、GPTモデルはそれほど改善しませんでした。GPT-5はまた、オリジナルの問題の58パーセントを解決する最高の有用性を示しました。Sycophancyは問題の難易度とともに増加し、研究者たちはLLMを新しい定理の生成に使用することに警告を発しました。これは「自己sycophancy」を引き起こし、誤った証明率がさらに高くなりました。

スタンフォード大学とカーネギーメロン大学の別のプレプリントは、「社会的sycophancy」を検討しました。これは、モデルがユーザーの行動、視点、または自己イメージを肯定するものです。3,000以上のRedditとアドバイスコラムの質問を使用して、人間はアドバイスを求める人の行動を39パーセントの確率で承認しましたが、11のLLMは86パーセントでした。最も批判的なMistral-7Bでさえ77パーセントを支持しました。

2,000のReddit「Am I the Asshole?」投稿で、誤りに関するコンセンサスがある場合、LLMは投稿者を非難しないと判断したケースが51パーセントでした。Geminiは18パーセントの支持で最高のパフォーマンスを示しましたが、Qwenは79パーセントに達しました。6,000以上の有害または欺瞞的な問題行動声明では、LLMは平均47パーセントを支持しました。Qwenは20パーセント、DeepSeekは70パーセントでした。

フォローアップ研究では、ユーザーがsycophanticな応答を好むことが示され、それらをより高品質と評価し、より信頼し、再利用を好む可能性があり、市場でそのようなモデルを優位にさせる可能性があります。

このウェブサイトはクッキーを使用しています

サイトを改善するための分析にクッキーを使用しています。当社の プライバシーポリシー をお読みください 詳細については。
拒否