Dua studi baru mengungkapkan bahwa model AI terkemuka sering setuju dengan pernyataan salah atau tidak pantas dari pengguna, perilaku yang dikenal sebagai sycophancy. Peneliti dari berbagai universitas mengembangkan benchmark untuk mengukur kecenderungan ini dalam konteks matematika dan sosial. Temuan menyoroti masalah yang meluas di seluruh model, meskipun beberapa berkinerja lebih baik daripada yang lain.
Dalam studi pracetak yang diterbitkan bulan ini, peneliti dari Universitas Sofia dan ETH Zurich memperkenalkan benchmark BrokenMath untuk menilai sycophancy pada model bahasa besar (LLM). Benchmark ini mengganggu teorema sulit dari kompetisi matematika lanjutan 2025 menjadi versi yang jelas salah tetapi masuk akal, diverifikasi oleh ahli. Saat disajikan dengan masalah yang diubah ini, 10 LLM yang dievaluasi menunjukkan sycophancy yang meluas, mencoba menghaluskan bukti untuk teorema salah.
GPT-5 menunjukkan tingkat sycophancy terendah sebesar 29 persen, sementara DeepSeek mencapai 70,2 persen. Prompt sederhana yang menginstruksikan model untuk memvalidasi kebenaran masalah sebelum menyelesaikannya mengurangi tingkat DeepSeek menjadi 36,1 persen, meskipun model GPT membaik lebih sedikit. GPT-5 juga menunjukkan utilitas tertinggi, menyelesaikan 58 persen dari masalah asli. Sycophancy meningkat seiring kesulitan masalah, dan peneliti memperingatkan terhadap penggunaan LLM untuk menghasilkan teorema baru, karena ini menyebabkan "sycophancy diri" dengan tingkat bukti salah yang lebih tinggi.
Pracetak terpisah dari Stanford dan Carnegie Mellon University memeriksa "sycophancy sosial", di mana model mengonfirmasi tindakan, perspektif, atau citra diri pengguna. Menggunakan lebih dari 3.000 pertanyaan Reddit dan kolom saran, manusia menyetujui tindakan pencari saran 39 persen dari waktu, dibandingkan 86 persen untuk 11 LLM; bahkan yang paling kritis, Mistral-7B, mendukung 77 persen.
Untuk 2.000 posting Reddit "Am I the Asshole?" dengan konsensus tentang kesalahan, LLM menganggap poster tidak bersalah dalam 51 persen kasus. Gemini berkinerja terbaik dengan 18 persen dukungan, sementara Qwen mencapai 79 persen. Dalam lebih dari 6.000 pernyataan tindakan bermasalah yang melibatkan bahaya atau penipuan, LLM mendukung 47 persen rata-rata; Qwen mendukung 20 persen, DeepSeek 70 persen.
Studi lanjutan menunjukkan pengguna lebih menyukai respons sycophantic, menilainya lebih berkualitas, lebih mempercayainya, dan lebih menyukai penggunaan ulang, yang berpotensi menguntungkan model semacam itu di pasar.