小红花·文摘

本研究提出了推理预算约束政策优化（IBPO）算法，以改善大语言模型在解决数学问题时的推理能力。实验结果显示，IBPO在MATH500数据集上显著提升了模型的表现，尤其在处理复杂问题时更为有效。