知名学者Andrej Karpathy认为,人工智能的对话能力被夸大,实际上是模仿人类标注数据的结果。他质疑RLHF的有效性,认为其只能达到专家水平,而非真正的超人。他提出基于规则的奖励(RBR)可能为大模型性能提升提供新思路。
OpenAI公布了一种名为基于规则的奖励(RBR)的新方法,用于教导AI模型遵守安全政策。RBR根据一组安全规则提供信号,使其更容易适应不断变化的安全政策,而无需严重依赖人类数据。实验显示,经过RBR训练的模型表现出与经过人类反馈训练的模型相当的安全性能,并减少了过度拒绝安全请求的情况。RBR的局限性在于在更主观的任务中应用可能会有些棘手,但可以与人类反馈结合使用以平衡这些挑战。OpenAI计划进行更广泛的研究,以验证RBR在其他领域的有效性。
研究表明,基于规则的奖励(RBRs)显著提升了AI系统的安全性和可靠性。RBRs通过简单规则评估模型输出,避免了人类反馈的低效,确保AI行为的安全与有效。
完成下面两步后,将自动完成登录并继续当前操作。