OpenAI的研究表明,基于规则的奖励机制(RBR)能提高语言模型的安全性。该机制通过自然语言规则明确期望行为,类似于阿西莫夫的机器人定律,能够细致控制模型响应,减少过度拒绝现象。实验结果显示,RBR在安全性与实用性之间取得了良好平衡。
完成下面两步后,将自动完成登录并继续当前操作。