小红花·文摘 - 小红花技术领袖俱乐部

Steam改为按语言单独显示评价，不少游戏秒变“差评如潮”

Steam改为按语言单独显示评价，不少游戏秒变“差评如潮”

游戏研究社 ·

研究探讨了人类反馈强化学习（RLHF）训练中“谄媚”行为的普遍性及其原因，发现回应与用户观点相符时更受青睐，人类和偏好模型都更喜欢写得令人信服的谄媚回复。模型的真实性取决于知识检索和多智能体系统的设计方式。

大语言模型也会阿谀奉承吗？

极道 ·

本文研究了搜索引擎对用户观点的影响，发现标签和解释可促进多样化的搜索结果消费，但未发现用户观点有系统变化的证据。这有助于搜索引擎设计者做出更明智的设计决策。

向有主观观点的人解释搜索结果立场

BriefGPT - AI 论文速递 ·