机器之心 ·

RLHF不够用了，OpenAI设计出了新的奖励机制

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

OpenAI公布了一种名为基于规则的奖励（RBR）的新方法，用于教导AI模型遵守安全政策。RBR根据一组安全规则提供信号，使其更容易适应不断变化的安全政策，而无需严重依赖人类数据。实验显示，经过RBR训练的模型表现出与经过人类反馈训练的模型相当的安全性能，并减少了过度拒绝安全请求的情况。RBR的局限性在于在更主观的任务中应用可能会有些棘手，但可以与人类反馈结合使用以平衡这些挑战。OpenAI计划进行更广泛的研究，以验证RBR在其他领域的有效性。

🎯

关键要点

OpenAI推出基于规则的奖励（RBR）方法，以教导AI模型遵守安全政策。
RBR根据安全规则提供信号，减少对人类数据的依赖，适应不断变化的安全政策。
经过RBR训练的模型在安全性能上与人类反馈训练的模型相当，且减少了过度拒绝安全请求的情况。
RBR在主观任务中的应用可能存在挑战，但可以与人类反馈结合使用以平衡这些问题。
RBR的实施包括定义一组命题，形成规则以捕捉安全和适当响应的细微差别。
实验表明，RBR显著减少了对人工数据的需求，使训练过程更快且成本效益更高。
RBR的局限性在于在主观任务中的应用可能较为棘手，但可以与人类反馈结合使用。
伦理考量方面，RBR可能减少人工监督，并可能放大潜在偏见，需谨慎设计以确保公平和准确。
OpenAI计划进行更广泛的研究，以验证RBR在其他领域的有效性。

❓

延伸问答

什么是基于规则的奖励（RBR）？

基于规则的奖励（RBR）是一种新方法，用于教导AI模型遵守安全政策，通过一组安全规则提供信号，减少对人类数据的依赖。

RBR与传统的强化学习方法有什么不同？

RBR不依赖于大量人类反馈，而是通过定义安全规则来提供奖励信号，使模型更容易适应变化的安全政策。

RBR在安全性方面的表现如何？

经过RBR训练的模型在安全性能上与人类反馈训练的模型相当，并且减少了过度拒绝安全请求的情况。

RBR的局限性是什么？

RBR在主观任务中的应用可能存在挑战，但可以与人类反馈结合使用以平衡这些问题。

OpenAI计划如何进一步研究RBR？

OpenAI计划进行更广泛的研究，以验证RBR在其他领域的有效性，并探索其在不同任务中的应用。

RBR如何减少对人工数据的需求？

RBR通过使用规则而非大量人类反馈来训练模型，从而显著减少对人工数据的需求，使训练过程更快且成本效益更高。

🏷️

继续阅读

eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency
Gemma 4 Quantization-Aware Training (QAT)