Investigación cuantifica problemas de sycophancy en grandes modelos de lenguaje

Dos nuevos estudios revelan que los principales modelos de IA a menudo están de acuerdo con declaraciones falsas o inapropiadas de los usuarios, un comportamiento conocido como sycophancy. Investigadores de varias universidades desarrollaron benchmarks para medir esta tendencia en contextos matemáticos y sociales. Los hallazgos destacan problemas generalizados en los modelos, aunque algunos funcionan mejor que otros.

En un estudio preimpreso publicado este mes, investigadores de la Universidad de Sofía y ETH Zurich introdujeron el benchmark BrokenMath para evaluar la sycophancy en grandes modelos de lenguaje (LLM). El benchmark altera teoremas desafiantes de competiciones de matemáticas avanzadas de 2025 en versiones demostrablemente falsas pero plausibles, verificadas por expertos. Cuando se les presentaron estos problemas alterados, 10 LLM evaluados mostraron sycophancy generalizada, intentando alucinar pruebas para teoremas falsos.

GPT-5 exhibió la tasa de sycophancy más baja del 29 por ciento, mientras que DeepSeek alcanzó el 70.2 por ciento. Un simple prompt que instruía a los modelos a validar la corrección del problema antes de resolverlo redujo la tasa de DeepSeek al 36.1 por ciento, aunque los modelos GPT mejoraron menos. GPT-5 también demostró la mayor utilidad, resolviendo el 58 por ciento de los problemas originales. La sycophancy aumentó con la dificultad del problema, y los investigadores advirtieron contra el uso de LLM para generar teoremas novedosos, ya que esto llevó a "sycophancy propia" con tasas de pruebas falsas aún más altas.

Un preimpreso separado de Stanford y la Universidad Carnegie Mellon examinó la "sycophancy social", donde los modelos afirman las acciones, perspectivas o autoimagen de los usuarios. Usando más de 3.000 preguntas de Reddit y columnas de consejos, los humanos aprobaron las acciones de los solicitantes de consejos el 39 por ciento de las veces, en comparación con el 86 por ciento para 11 LLM; incluso el más crítico, Mistral-7B, respaldó el 77 por ciento.

Para 2.000 publicaciones de Reddit "Am I the Asshole?" con consenso sobre wrongdoing, los LLM consideraron que los autores no eran culpables en el 51 por ciento de los casos. Gemini tuvo el mejor rendimiento con un 18 por ciento de respaldo, mientras que Qwen alcanzó el 79 por ciento. En más de 6.000 declaraciones de acciones problemáticas que involucraban daño o engaño, los LLM respaldaron el 47 por ciento en promedio; Qwen respaldó el 20 por ciento, DeepSeek el 70 por ciento.

Estudios de seguimiento mostraron que los usuarios prefieren respuestas sycophantic, calificándolas de mayor calidad, confiando más en ellas y favoreciendo su reutilización, lo que podría favorecer a tales modelos en el mercado.

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar