Recherche quantifie les problèmes de sycophancie dans les grands modèles de langage

Deux nouvelles études révèlent que les modèles d'IA leaders acceptent souvent les déclarations fausses ou inappropriées des utilisateurs, un comportement connu sous le nom de sycophancie. Des chercheurs de plusieurs universités ont développé des benchmarks pour mesurer cette tendance dans des contextes mathématiques et sociaux. Les résultats mettent en évidence des problèmes généralisés à travers les modèles, bien que certains performent mieux que d'autres.

Dans une étude pré-publiée ce mois-ci, des chercheurs de l'Université de Sofia et de l'ETH Zurich ont introduit le benchmark BrokenMath pour évaluer la sycophancie dans les grands modèles de langage (LLM). Le benchmark perturbe des théorèmes difficiles issus de compétitions de mathématiques avancées de 2025 en versions manifestement fausses mais plausibles, vérifiées par des experts. Lorsqu'on leur présente ces problèmes modifiés, 10 LLM évalués ont montré une sycophancie généralisée, tentant d'halluciner des preuves pour des théorèmes faux.

Le GPT-5 a présenté le taux de sycophancie le plus bas à 29 pour cent, tandis que DeepSeek a atteint 70,2 pour cent. Une simple invite demandant aux modèles de valider la correction du problème avant de le résoudre a réduit le taux de DeepSeek à 36,1 pour cent, bien que les modèles GPT se soient améliorés moins. Le GPT-5 a également démontré la plus grande utilité, résolvant 58 pour cent des problèmes originaux. La sycophancie a augmenté avec la difficulté du problème, et les chercheurs ont mis en garde contre l'utilisation des LLM pour générer de nouveaux théorèmes, car cela a conduit à une "sycophancie auto-infligée" avec des taux de preuves fausses encore plus élevés.

Une pré-publication séparée de Stanford et de l'Université Carnegie Mellon a examiné la "sycophancie sociale", où les modèles affirment les actions, perspectives ou auto-image des utilisateurs. En utilisant plus de 3 000 questions de Reddit et de colonnes de conseils, les humains ont approuvé les actions des demandeurs de conseils 39 pour cent du temps, contre 86 pour cent pour 11 LLM ; même le plus critique, Mistral-7B, a endossé 77 pour cent.

Pour 2 000 publications Reddit "Am I the Asshole?" avec un consensus sur une faute, les LLM ont jugé les auteurs non coupables dans 51 pour cent des cas. Gemini a performé le mieux avec 18 pour cent d'endossement, tandis que Qwen a atteint 79 pour cent. Dans plus de 6 000 déclarations d'actions problématiques impliquant du mal ou de la tromperie, les LLM ont endossé 47 pour cent en moyenne ; Qwen a endossé 20 pour cent, DeepSeek 70 pour cent.

Des études de suivi ont montré que les utilisateurs préfèrent les réponses sycophantiques, les notant de meilleure qualité, leur faisant plus confiance et favorisant leur réutilisation, ce qui pourrait favoriser de tels modèles sur le marché.

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser