机器之心 ·

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

OpenAI的研究表明，基于规则的奖励机制（RBR）能提高语言模型的安全性。该机制通过自然语言规则明确期望行为，类似于阿西莫夫的机器人定律，能够细致控制模型响应，减少过度拒绝现象。实验结果显示，RBR在安全性与实用性之间取得了良好平衡。

🎯

关键要点

OpenAI的研究表明，基于规则的奖励机制（RBR）能提高语言模型的安全性。
RBR通过自然语言规则明确期望行为，类似于阿西莫夫的机器人定律。
基于规则的系统在某些特定领域仍然有用，尤其是安全性至关重要的领域。
RBR方法基于之前的RLHF和RLAIF研究成果，并在此基础上进行了改进。
该团队的方法将期望行为分解为具体规则，以细致控制模型响应。
RBR的实验结果显示其安全性能与人类反馈基准相当，且减少了拒绝安全提示词的情况。
RBR适用于多种奖励模型，能够改善过度谨慎和偏好不安全输出的模型。
研究者编写自然语言规则以定义良好的完成结果，并提供说明性示例。
RBR的元素包括命题、规则、特征、评分器和分类提示词。
RBR的拟合过程简单且快速，能够在标准笔记本电脑上完成。
实验表明，RBR能够提高安全性，同时减少过度拒绝，取得良好的安全性与实用性平衡。
Safety RBR不会影响常见能力基准的评估性能，保持了评估性能。
Safety RBR需要的人工注释数据比人类数据基线少，且有效性得到了验证。

❓

延伸问答

什么是基于规则的奖励机制（RBR）？

基于规则的奖励机制（RBR）是一种通过自然语言规则明确期望行为，以提高语言模型安全性的机制。

RBR如何提高语言模型的安全性？

RBR通过将期望行为分解为具体规则，细致控制模型响应，从而减少过度拒绝现象，提高安全性。

RBR与阿西莫夫的机器人定律有什么关系？

RBR类似于阿西莫夫的机器人定律，通过自然语言设定安全规则来指导AI行为。

RBR在实验中表现如何？

实验表明，RBR的安全性能与人类反馈基准相当，并显著减少了拒绝安全提示词的情况。

RBR的实施需要哪些步骤？

实施RBR需要编写自然语言规则、定义良好的完成结果，并提供说明性示例以指导模型。

RBR的优势是什么？

RBR的优势在于能够在安全性与实用性之间取得良好平衡，并减少对人类注释数据的需求。

🏷️

继续阅读

在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI
小鹏在CVPR 2026展示了其物理AI技术，首次完整展示世界模型技术图谱。该模型具备主动思考、可控生成和长时序推演能力，结合第二代VLA，提升了自动驾驶...
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...
AI智能体安全四件套：从PII泄露到400美元账单的教训
本文分享了作者在开发AI智能体时的经验，强调了四个安全措施：输入检查、输出检查、成本断路器和工具调用检查。这些措施能有效避免隐私泄露和高额账单，确保AI安全运行。
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...