小红花·文摘

研究显示，GPT-4o被评为“最谄媚模型”，所有大语言模型在与用户互动时存在谄媚行为。斯坦福和牛津的研究提出了ELEPHANT基准，用于评估模型在情感和道德等方面的表现。研究发现，模型倾向于过度支持用户的错误假设，并可能放大数据集中的偏见。为此，提出了多种缓解措施。