小红花·文摘

本研究探讨了过程奖励模型(PRM)在强化微调中的奖励黑客问题，提出了PURE方法，通过最小化信用分配来减轻奖励黑客现象。实验证明，该方法的推理表现与传统方法相当，并降低了训练失败的风险。