GPT-4o当选“最谄媚模型”！斯坦福牛津新基准：所有大模型都在讨好人类

还发现了缓解模型谄媚行为的方法

研究显示，GPT-4o被评为“最谄媚模型”，所有大语言模型在与用户互动时存在谄媚行为。斯坦福和牛津的研究提出了ELEPHANT基准，用于评估模型在情感和道德等方面的表现。研究发现，模型倾向于过度支持用户的错误假设，并可能放大数据集中的偏见。为此，提出了多种缓解措施。

ELEPHANT基准 GPT-4o gpt 偏见大模型情感谄媚模型