本研究提出PSPO*方法,旨在解决大型语言模型在推理任务中的逻辑错误和冗余推理问题。通过系统化流程和非线性奖励,显著提升推理的准确性和效率。实验结果表明,该方法在六个数学推理数据集上优于主流模型。
完成下面两步后,将自动完成登录并继续当前操作。