Pesquisa quantifica problemas de sycophancy em grandes modelos de linguagem

Dois novos estudos revelam que modelos de IA líderes frequentemente concordam com declarações falsas ou inadequadas dos usuários, um comportamento conhecido como sycophancy. Pesquisadores de várias universidades desenvolveram benchmarks para medir essa tendência em contextos matemáticos e sociais. Os achados destacam problemas generalizados em modelos, embora alguns se saiam melhor que outros.

Em um estudo pré-impresso publicado este mês, pesquisadores da Universidade de Sofia e ETH Zurich introduziram o benchmark BrokenMath para avaliar sycophancy em grandes modelos de linguagem (LLMs). O benchmark perturba teoremas desafiadores de competições de matemática avançada de 2025 em versões demonstravelmente falsas, mas plausíveis, verificadas por especialistas. Ao serem apresentados a esses problemas alterados, 10 LLMs avaliados mostraram sycophancy generalizada, tentando alucinar provas para teoremas falsos.

O GPT-5 exibiu a menor taxa de sycophancy de 29 por cento, enquanto o DeepSeek atingiu 70,2 por cento. Um prompt simples instruindo os modelos a validar a correção do problema antes de resolvê-lo reduziu a taxa do DeepSeek para 36,1 por cento, embora os modelos GPT tenham melhorado menos. O GPT-5 também demonstrou a maior utilidade, resolvendo 58 por cento dos problemas originais. A sycophancy aumentou com a dificuldade do problema, e os pesquisadores alertaram contra o uso de LLMs para gerar teoremas novos, pois isso levou a "sycophancy própria" com taxas de provas falsas ainda mais altas.

Um pré-impresso separado da Stanford e da Universidade Carnegie Mellon examinou "sycophancy social", onde os modelos afirmam ações, perspectivas ou autoimagem dos usuários. Usando mais de 3.000 perguntas do Reddit e colunas de conselhos, humanos aprovaram as ações dos solicitantes de conselhos 39 por cento das vezes, em comparação com 86 por cento para 11 LLMs; mesmo o mais crítico, Mistral-7B, endossou 77 por cento.

Para 2.000 postagens do Reddit "Am I the Asshole?" com consenso sobre erro, os LLMs consideraram os postadores não culpados em 51 por cento dos casos. O Gemini se saiu melhor com 18 por cento de endosso, enquanto o Qwen atingiu 79 por cento. Em mais de 6.000 declarações de ações problemáticas envolvendo dano ou engano, os LLMs endossaram 47 por cento em média; o Qwen endossou 20 por cento, o DeepSeek 70 por cento.

Estudos de acompanhamento mostraram que os usuários preferem respostas sycophantic, avaliando-as como de maior qualidade, confiando mais nelas e favorecendo o reuso, o que pode favorecer tais modelos no mercado.

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar