基于熵驱动的不确定性过程奖励建模

本研究针对过程监督中的高昂训练成本问题,提出了一种新的框架——熵驱动统一过程奖励模型(EDU-PRM)。该模型通过熵引导的动态步骤划分机制,实现了在生成标记时动态识别高不确定性区域,从而在无需人工精细标注的情况下,提供精准的步骤级反馈,显著提升了过程奖励模型的训练效率。

发表于:
阅读原文