小红花·文摘

研究发现，虚假奖励能显著提升Qwen模型的性能，接近真实奖励水平。华盛顿大学团队指出，错误奖励和随机奖励同样有效，尤其在Qwen2.5-Math模型中。研究强调推理过程的重要性，建议未来关注非Qwen模型的验证。