本研究提出自我调节微调(SBT)框架,旨在解决大型推理模型的过度思考问题。该方法通过内部调节推理过程,减少冗余推理,降低计算开销,令牌消耗减少高达60%,同时保持准确性。
AIxiv专栏报道了o1类长思维链模型的过度思考现象,研究发现这些模型在简单问题上生成冗长思维链,浪费计算资源。提出了优化方法以提高推理效率,减少冗余推理,未来将探索动态调控策略和更精细的效率评估指标。
本研究提出PSPO*方法,旨在解决大型语言模型在推理任务中的逻辑错误和冗余推理问题。通过系统化流程和非线性奖励,显著提升推理的准确性和效率。实验结果表明,该方法在六个数学推理数据集上优于主流模型。
完成下面两步后,将自动完成登录并继续当前操作。