小红花·文摘

本研究提出了一种通过单个训练示例进行验证奖励的强化学习方法（1-shot RLVR），显著提升了大型语言模型的数学推理能力，特别是将Qwen2.5-Math-1.5B在MATH500上的准确率从36.0%提高至73.6%。

BriefGPT - AI 论文速递 ·

本研究提出了一种名为推理预算约束政策优化（IBPO）的方法，旨在提升大语言模型的推理能力。该算法通过最大化推理预算的利用率，使模型能够根据问题的难度合理分配推理预算。实验结果表明，IBPO在MATH500数据集上显著提高了模型处理复杂数学问题的能力。

BriefGPT - AI 论文速递 ·