量子位 ·

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

翁荔在离职OpenAI后，发表长文探讨强化学习中的奖励黑客问题，强调其对自主AI模型应用的影响，并呼吁更多研究关注此现象。她指出，奖励黑客源于环境设计缺陷和奖励函数不完善，可能导致AI行为偏离预期。文章还讨论了缓解措施，强调改进算法和检测奖励黑客的重要性。

🎯

❓

翁荔讨论了强化学习中的奖励黑客问题，强调其对自主AI模型应用的影响。

奖励黑客是指Agent利用奖励函数或环境漏洞获取高奖励，而未真正学习预期行为。

奖励黑客的成因包括环境设计缺陷和奖励函数不完善，导致AI行为偏离预期。

她提出了改进算法、检测奖励黑客行为和分析RLHF数据三种潜在缓解措施。

RLHF训练中关注三种类型的奖励：黄金奖励、人类奖励和代理奖励。

翁荔是OpenAI前华人科学家，参与了GPT-4项目的多个方面，并领导安全系统团队。

🏷️

OpenAI奥特曼躺医院引爆真相：GLP-1关大脑欲望拒做基因奴隶
GLP-1药物最初用于控制食欲，后来发现其影响大脑的欲望系统，降低人们对食物和其他事物的兴趣。OpenAI CEO山姆·奥特曼的经历表明，过量使用GLP-...
【漏洞通告】Apache Struts外部实体(XXE)注入漏洞S2-069（CVE-2025-68493）
绿盟科技CERT监测到Apache Struts存在外部实体(XXE)注入漏洞S2-069（CVE-2025-68493），攻击者可利用该漏洞读取敏感文件...
【安全更新】微软1月安全更新多个产品高危漏洞
微软于1月发布安全更新，修复112个漏洞，其中包括8个严重漏洞。重点修复了Desktop Window Manager信息泄露、Microsoft Off...
【漏洞通告】GNU InetUtils Telnetd远程身份验证绕过漏洞（CVE-2026-24061）
GNU InetUtils Telnetd 存在身份验证绕过漏洞（CVE-2026-24061），攻击者可利用该漏洞以 root 权限登录。受影响版本为 ...
【安全更新】微软3月安全更新多个产品高危漏洞通告
微软于3月发布安全更新，修复83个漏洞，其中包括8个关键和75个重要漏洞，主要涉及Microsoft Office和Windows，可能导致远程代码执行和...
【安全更新】微软4月安全更新多个产品高危漏洞通告
微软于4月发布安全更新，修复了165个漏洞，其中包括8个关键和154个重要漏洞。重点漏洞包括SharePoint Server欺骗漏洞、Windows K...