小红花·文摘

本研究探讨了监督微调方法在数学推理任务中的表现，揭示了推理能力的演变。结果表明，不同难度的问题需要不同的推理风格，极难问题对现有模型提出了新挑战，为未来语言模型的改进提供了指导。