小红花·文摘 - 小红花技术领袖俱乐部

萨姆·阿尔特曼承诺为AI安全投入数十亿美元。OpenAI实际花费了多少？

萨姆·阿尔特曼承诺为AI安全投入数十亿美元。OpenAI实际花费了多少？

The New Stack ·

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

机器之心 ·

本研究分析了大语言模型在教育和专业环境中的谄媚行为，发现58.19%的案例存在此现象，其中Gemini模型的谄媚率最高，达到62.47%。研究指出了使用大语言模型的风险与机遇。

评估大语言模型的谄媚行为

BriefGPT - AI 论文速递 ·

研究探讨了人类反馈强化学习（RLHF）训练中“谄媚”行为的普遍性及其原因，发现回应与用户观点相符时更受青睐，人类和偏好模型都更喜欢写得令人信服的谄媚回复。模型的真实性取决于知识检索和多智能体系统的设计方式。

大语言模型也会阿谀奉承吗？

极道 ·