小红花·文摘

本研究提出了ZeroTIR工具集成推理方法，以解决大型语言模型在数学推理中的计算精度不足问题。研究表明，强化学习训练的进展与自发代码执行频率、响应长度和任务准确率之间存在显著正相关，揭示了计算努力与工具辅助推理策略的关系。