小红花·文摘

本研究提出PSPO*方法，旨在解决大型语言模型在推理任务中的逻辑错误和冗余推理问题。通过系统化流程和非线性奖励，显著提升推理的准确性和效率。实验结果表明，该方法在六个数学推理数据集上优于主流模型。