量子位 ·

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

上海AI Lab提出的POLAR新范式通过参考答案灵活打分，提升了强化学习中奖励模型的可扩展性和泛化能力，克服了传统模型的局限性，展现出显著的Scaling效应。

🎯

关键要点

POLAR新范式通过参考答案灵活打分，提升了奖励模型的可扩展性和泛化能力。
传统奖励模型的设计与训练是强化学习的瓶颈，缺乏系统性的预训练和扩展方法。
POLAR能够根据不同场景的参考答案为模型输出打分，适应多样化的定制需求。
POLAR通过对比学习衡量训练策略与目标策略之间的距离，提供无偏的奖励信号。
POLAR的预训练语料通过自动化合成数据构建，具有极强的可扩展潜力。
POLAR展现出与大语言模型类似的Scaling Laws，分配更多计算资源可持续提升性能。
POLAR在偏好评估和强化微调实验中均优于现有的SOTA奖励模型，显示出强大的潜力。
POLAR作为一种全新的奖励模型预训练方法，为大语言模型后训练提供了新的可能性。

❓

延伸问答

POLAR新范式的主要优势是什么？

POLAR通过参考答案灵活打分，提升了奖励模型的可扩展性和泛化能力，克服了传统模型的局限性。

POLAR是如何解决传统奖励模型的局限性的？

POLAR通过对比学习衡量训练策略与目标策略之间的距离，提供无偏的奖励信号，摆脱了传统模型的绝对偏好限制。

POLAR的训练过程是怎样的？

POLAR的训练分为预训练和偏好微调两个阶段，使用对比学习来衡量策略间的距离，并通过少量偏好数据对齐人类偏好。

POLAR在Scaling效应方面表现如何？

POLAR展现出与大语言模型类似的Scaling Laws，分配更多计算资源可持续提升性能，验证集损失随模型参数和计算量的增加而下降。

POLAR在偏好评估实验中表现如何？

POLAR在偏好评估中优于现有的SOTA奖励模型，能够准确识别推理、聊天、创意写作等任务中的细微区别。

POLAR如何适应不同的定制需求？

POLAR根据不同场景的参考答案为模型输出打分，灵活适应多样化的定制需求，无需重新训练奖励模型。

🏷️

继续阅读

微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
大模型发展三年半，AI圈终于等来了一场“不要大厂，只赌脑洞”的比赛
B站推出的“build in bilibili·AI创造公开赛”鼓励参与者利用AI工具创作，打破技术壁垒。参赛者展示创作过程，观众通过投币决定作品曝光和奖...
Hinton吹哨了：AI已经有意识！
AI教父Geoffrey Hinton认为，人工智能已具备意识，人类不再是唯一的智能生命体。他警告未来可能出现比人类更聪明的智能，控制权将面临挑战。他强调...
腾讯发布WorkBuddy企业版：从超级个人到超级团队员工会被AI取代吗？
腾讯云在“龙虾热”期间推出了WorkBuddy企业版和办公智能体套件，旨在提升企业组织生产力。刘毅表示，AI Agent的应用将促进超级个体与团队的连接，...
浏览器选择联盟发布公开信要求微软停止现有的Microsoft Edge恶意推广策略
浏览器选择联盟再次公开信，敦促微软停止恶意推广Microsoft Edge，并要求开放OEM预装和设置默认浏览器。联盟成员包括Chrome和Vivaldi...
谷歌与SpaceX达成3年AI算力合作谷歌将每月支付9.2亿美元使用孟菲斯C1数据中心
谷歌与SpaceX达成合作，谷歌每月支付9.2亿美元使用SpaceX孟菲斯数据中心的11万台英伟达GPU，合作期为2026年10月至2029年6月。同时，...