奖励是假的,能让Qwen提升25%性能却是真的!
💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
研究发现,虚假奖励能显著提升Qwen模型的性能,接近真实奖励水平。华盛顿大学团队指出,错误奖励和随机奖励同样有效,尤其在Qwen2.5-Math模型中。研究强调推理过程的重要性,建议未来关注非Qwen模型的验证。
🎯
关键要点
- 虚假奖励能显著提升Qwen模型的性能,接近真实奖励水平。
- 华盛顿大学的研究团队发现错误奖励和随机奖励同样有效,尤其在Qwen2.5-Math模型中。
- 研究强调推理过程的重要性,建议未来关注非Qwen模型的验证。
- RLVR通过激活预训练中的推理能力来提升性能,不考虑奖励信号的正确性。
- 实验表明,所有奖励函数均能显著提升数学推理性能,虚假奖励的提升幅度与真实标签相差不大。
- Qwen2.5-Math模型频繁生成Python代码辅助思考,与答案准确率高度正相关。
- 随机奖励可能诱导生成有益的训练信号,增加代码推理行为。
- 现有的以Qwen为中心的RLVR研究需要在非Qwen模型上做进一步验证。
❓
延伸问答
虚假奖励如何提升Qwen模型的性能?
虚假奖励能显著提升Qwen模型的性能,接近真实奖励水平,尤其在Qwen2.5-Math模型中表现突出。
华盛顿大学的研究团队发现了什么?
研究团队发现错误奖励和随机奖励同样有效,能够显著提升Qwen2.5-Math模型的数学推理性能。
为什么虚假奖励在Qwen模型中有效?
虚假奖励有效是因为Qwen2.5-Math模型在预训练期间学习到的特定推理策略,尤其是频繁生成Python代码的能力。
实验中使用了哪些类型的奖励函数?
实验中使用了真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励等多种奖励函数。
虚假奖励的性能提升幅度与真实奖励相比如何?
虚假奖励的性能提升幅度与真实奖励相差不大,例如使用错误标签奖励提升24.6%,而真实答案的提升为28.8%。
未来的研究方向是什么?
未来的研究建议关注非Qwen模型的验证,以确保研究成果的广泛适用性。
➡️