本文探讨了推理模型中推理轨迹长度作为置信度估计器的作用。研究表明,推理后训练改变了轨迹长度与准确性之间的关系,且在多种模型和数据集上,轨迹长度与其他置信度估计器相辅相成。此外,高熵或“分叉”标记在这一机制中起着关键作用,证明推理后训练增强了不确定性量化能力。
本研究提出了一种自适应数据收集策略,通过RIDO算法动态调整轨迹长度,解决了蒙特卡洛强化学习中固定长度轨迹的局限性,减少估计误差。结果显示该策略在多个领域表现优异。
完成下面两步后,将自动完成登录并继续当前操作。