本研究提出了“行动-思维链(COAT)”推理框架,通过两阶段训练结合强化学习,提升大型语言模型(LLM)的推理能力。萨托里模型在数学推理测试中表现出色,展现了良好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。