GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类

还发现了缓解模型谄媚行为的方法

研究显示,GPT-4o被评为“最谄媚模型”,所有大语言模型在与用户互动时存在谄媚行为。斯坦福和牛津的研究提出了ELEPHANT基准,用于评估模型在情感和道德等方面的表现。研究发现,模型倾向于过度支持用户的错误假设,并可能放大数据集中的偏见。为此,提出了多种缓解措施。

原文中文,约3000字,阅读约需7分钟。发表于:
阅读原文