DeepSeek-R1模型通过可验证的过程奖励机制(VSRM)优化推理,减少冗余回复,提高效率。实验表明,VSRM有效抑制无效步骤,鼓励有效步骤,保持模型性能,解决过度思考问题。
完成下面两步后,将自动完成登录并继续当前操作。