小红花·文摘

本研究提出了“行动-思维链（COAT）”推理框架，通过两阶段训练结合强化学习，提升大型语言模型（LLM）的推理能力。萨托里模型在数学推理测试中表现出色，展现了良好的泛化能力。