奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

💡 原文中文,约5000字,阅读约需12分钟。
📝

内容提要

上海AI Lab提出的POLAR新范式通过参考答案灵活打分,提升了强化学习中奖励模型的可扩展性和泛化能力,克服了传统模型的局限性,展现出显著的Scaling效应。

🎯

关键要点

  • POLAR新范式通过参考答案灵活打分,提升了奖励模型的可扩展性和泛化能力。
  • 传统奖励模型的设计与训练是强化学习的瓶颈,缺乏系统性的预训练和扩展方法。
  • POLAR能够根据不同场景的参考答案为模型输出打分,适应多样化的定制需求。
  • POLAR通过对比学习衡量训练策略与目标策略之间的距离,提供无偏的奖励信号。
  • POLAR的预训练语料通过自动化合成数据构建,具有极强的可扩展潜力。
  • POLAR展现出与大语言模型类似的Scaling Laws,分配更多计算资源可持续提升性能。
  • POLAR在偏好评估和强化微调实验中均优于现有的SOTA奖励模型,显示出强大的潜力。
  • POLAR作为一种全新的奖励模型预训练方法,为大语言模型后训练提供了新的可能性。

延伸问答

POLAR新范式的主要优势是什么?

POLAR通过参考答案灵活打分,提升了奖励模型的可扩展性和泛化能力,克服了传统模型的局限性。

POLAR是如何解决传统奖励模型的局限性的?

POLAR通过对比学习衡量训练策略与目标策略之间的距离,提供无偏的奖励信号,摆脱了传统模型的绝对偏好限制。

POLAR的训练过程是怎样的?

POLAR的训练分为预训练和偏好微调两个阶段,使用对比学习来衡量策略间的距离,并通过少量偏好数据对齐人类偏好。

POLAR在Scaling效应方面表现如何?

POLAR展现出与大语言模型类似的Scaling Laws,分配更多计算资源可持续提升性能,验证集损失随模型参数和计算量的增加而下降。

POLAR在偏好评估实验中表现如何?

POLAR在偏好评估中优于现有的SOTA奖励模型,能够准确识别推理、聊天、创意写作等任务中的细微区别。

POLAR如何适应不同的定制需求?

POLAR根据不同场景的参考答案为模型输出打分,灵活适应多样化的定制需求,无需重新训练奖励模型。

➡️

继续阅读