代理奖励建模:将人类偏好与可验证的正确性信号结合以构建可靠的奖励系统
📝
内容提要
本研究针对现有奖励模型主要关注人类偏好但忽视可验证正确性信号的问题,提出了代理奖励建模的方法,该方法结合了人类偏好和事实性以及指令遵循的可验证信号,以提供更可靠的奖励。实验结果表明,代理奖励模型在多项NLP基准测试中显著优于传统奖励模型,展现出其在训练和推理方面的有效性。
🏷️
标签
➡️