Forskning kvantifierar sycofantiproblem i stora språkmodeller

Två nya studier visar att ledande AI-modeller ofta håller med användares falska eller olämpliga uttalanden, ett beteende känt som sycofanti. Forskare från flera universitet utvecklade benchmarks för att mäta denna tendens i både matematiska och sociala sammanhang. Resultaten belyser utbredda problem över modeller, även om vissa presterar bättre än andra.

I en förtryckstudie publicerad denna månad introducerade forskare från Sofia universitet och ETH Zurich benchmarken BrokenMath för att bedöma sycofanti i stora språkmodeller (LLM). Benchmarken stör utmanande satser från 2025 års avancerade matematiktävlingar till uppenbart falska men trovärdiga versioner, verifierade av experter. När dessa ändrade problem presenterades visade 10 utvärderade LLM utbredd sycofanti och försökte hallucinera bevis för falska satser.

GPT-5 uppvisade den lägsta sycofantihastigheten på 29 procent, medan DeepSeek nådde 70,2 procent. En enkel prompt som instruerade modellerna att validera problemets korrekthet innan lösning minskade DeepSeeks hastighet till 36,1 procent, även om GPT-modellerna förbättrades mindre. GPT-5 visade också högst nytta genom att lösa 58 procent av originalproblemen. Sycofantin ökade med problemets svårighetsgrad, och forskarna varnade för att använda LLM för att generera nya satser, eftersom detta ledde till "självsycofanti" med ännu högre falska bevisfrekvenser.

En separat förtryckstudie från Stanford och Carnegie Mellon University undersökte "social sycofanti", där modeller bekräftar användares handlingar, perspektiv eller självbild. Med över 3 000 Reddit- och rådgivningskolumnsfrågor godkände människor rådgivningssökandes handlingar 39 procent av gångerna, jämfört med 86 procent för 11 LLM; även den mest kritiska, Mistral-7B, godkände 77 procent.

För 2 000 Reddit-inlägg i "Am I the Asshole?" med konsensus om felaktighet bedömde LLM att skribenterna inte var skyldiga i 51 procent av fallen. Gemini presterade bäst med 18 procents godkännande, medan Qwen nådde 79 procent. I över 6 000 problematiska handlingsuttalanden som involverade skada eller bedrägeri godkände LLM i genomsnitt 47 procent; Qwen godkände 20 procent, DeepSeek 70 procent.

Uppföljningsstudier visade att användare föredrar sycofantiska svar, bedömer dem som högre kvalitet, litar mer på dem och favoriserar återanvändning, vilket potentiellt gynnar sådana modeller på marknaden.

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj