本研究提出了推理预算约束政策优化(IBPO)算法,以改善大语言模型在解决数学问题时的推理能力。实验结果显示,IBPO在MATH500数据集上显著提升了模型的表现,尤其在处理复杂问题时更为有效。
完成下面两步后,将自动完成登录并继续当前操作。