研究发现,虚假奖励能显著提升Qwen模型的性能,接近真实奖励水平。华盛顿大学团队指出,错误奖励和随机奖励同样有效,尤其在Qwen2.5-Math模型中。研究强调推理过程的重要性,建议未来关注非Qwen模型的验证。
完成下面两步后,将自动完成登录并继续当前操作。