美团技术团队 ·

可验证过程奖励在提升大模型推理效率中的探索与实践

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

DeepSeek-R1模型通过可验证的过程奖励机制（VSRM）优化推理，减少冗余回复，提高效率。实验表明，VSRM有效抑制无效步骤，鼓励有效步骤，保持模型性能，解决过度思考问题。

🎯

🔎

可验证过程奖励机制（VSRM）通过对每个推理步骤进行奖励分配，能够有效抑制模型的无效思考。这种机制不仅提升了推理效率，还保持了模型的性能，适用于多种推理任务，尤其是在数学问题上表现突出。

模型过度思考的主要原因在于生成大量无效的中间步骤。VSRM通过鼓励有效步骤并惩戒无效步骤，直接针对这一问题，提供了一种有效的解决方案，帮助模型更快地找到正确答案。

实验表明，VSRM在降低输出长度的同时，能够保持模型的探索能力。这意味着在优化推理效率的过程中，模型并未牺牲其解决问题的能力，反而可能提升了其在复杂任务中的表现。

❓

VSRM通过鼓励有效步骤和惩戒无效步骤，减少冗余回复，从而提升推理效率。

主要问题是模型倾向于生成冗余回复，导致推理效率低下。

VSRM通过抑制无效步骤，鼓励有效步骤，减少中间步骤的冗余，从根本上解决过度思考问题。

实验显示，VSRM在降低输出长度的同时，保持了模型性能的良好平衡。

VSRM结合了可验证奖励与步骤级奖励，能够为每个中间步骤分配奖励信号，而传统机制往往无法精确奖惩步骤。

通过评估步骤完成前后的正确率增益来判断步骤的有效性。

🏷️