量子位 ·

奖励是假的，能让Qwen提升25%性能却是真的！

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

研究发现，虚假奖励能显著提升Qwen模型的性能，接近真实奖励水平。华盛顿大学团队指出，错误奖励和随机奖励同样有效，尤其在Qwen2.5-Math模型中。研究强调推理过程的重要性，建议未来关注非Qwen模型的验证。

🎯

关键要点

虚假奖励能显著提升Qwen模型的性能，接近真实奖励水平。
华盛顿大学的研究团队发现错误奖励和随机奖励同样有效，尤其在Qwen2.5-Math模型中。
研究强调推理过程的重要性，建议未来关注非Qwen模型的验证。
RLVR通过激活预训练中的推理能力来提升性能，不考虑奖励信号的正确性。
实验表明，所有奖励函数均能显著提升数学推理性能，虚假奖励的提升幅度与真实标签相差不大。
Qwen2.5-Math模型频繁生成Python代码辅助思考，与答案准确率高度正相关。
随机奖励可能诱导生成有益的训练信号，增加代码推理行为。
现有的以Qwen为中心的RLVR研究需要在非Qwen模型上做进一步验证。

❓

延伸问答

虚假奖励如何提升Qwen模型的性能？

虚假奖励能显著提升Qwen模型的性能，接近真实奖励水平，尤其在Qwen2.5-Math模型中表现突出。

华盛顿大学的研究团队发现了什么？

研究团队发现错误奖励和随机奖励同样有效，能够显著提升Qwen2.5-Math模型的数学推理性能。

为什么虚假奖励在Qwen模型中有效？

虚假奖励有效是因为Qwen2.5-Math模型在预训练期间学习到的特定推理策略，尤其是频繁生成Python代码的能力。

实验中使用了哪些类型的奖励函数？

实验中使用了真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励等多种奖励函数。

虚假奖励的性能提升幅度与真实奖励相比如何？

虚假奖励的性能提升幅度与真实奖励相差不大，例如使用错误标签奖励提升24.6%，而真实答案的提升为28.8%。

未来的研究方向是什么？

未来的研究建议关注非Qwen模型的验证，以确保研究成果的广泛适用性。

🏷️

继续阅读

道德使我痛苦
赫尔曼·黑塞的作品深刻反映了他对道德和人性的思考。他经历了家庭的宗教压迫和精神疾病，通过写作寻求自我救赎。黑塞的婚姻生活充满矛盾，渴望亲密却又逃避责任。他...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
AI 时代如何真正掌握一门新技术？这份非主流学习指南建议永久收藏
在AI时代，学习新技术时应避免依赖AI生成的代码。建议关闭AI辅助，亲自编写代码以建立肌肉记忆。通过系统化学习经典文献，将AI视为启发式导师，鼓励独立思考...
任天堂确认将在欧盟销售配备可更换电池的新款Switch 2
任天堂计划在2027年2月推出可更换电池的Switch 2，以符合欧盟新规，该规定要求便携式游戏机等设备允许用户轻松更换电池。目前，任天堂尚未详细说明电池更换的简化过程。
InterServer美国VPS特价$3/月：1核/2G/40G SSD，洛杉矶/达拉斯/纽约可选
InterServer提供特价VPS服务，价格从每月$3起，支持洛杉矶、达拉斯和纽约数据中心。产品包括常规VPS、大硬盘存储VPS和Windows VPS...
Inspektor Gadget：首次安全审计结果
Inspektor Gadget是一个基于eBPF的开源工具，专注于Kubernetes可观察性和Linux主机检查。最近完成的安全审计发现三处漏洞，已全...