本研究提出了ZeroTIR工具集成推理方法,以解决大型语言模型在数学推理中的计算精度不足问题。研究表明,强化学习训练的进展与自发代码执行频率、响应长度和任务准确率之间存在显著正相关,揭示了计算努力与工具辅助推理策略的关系。
完成下面两步后,将自动完成登录并继续当前操作。