DeepSeekMath：推动开放语言模型中数学推理的极限

利用公开可获得的网络数据和 Group Relative Policy Optimization（GRPO）提高 DeepSeekMath 7B 的数学推理能力，使其在 MATH 基准上达到了 51.7% 的竞争水平，并接近了 Gemini-Ultra 和 GPT-4 的性能水平。

该研究介绍了一种通过微调开源语言模型来增强数学推理能力的方法。作者提出了MathCodeInstruct数据集，用于生成数学问题和基于代码的解决方案。通过定制的有监督微调和推理方法，开发了MathCoder模型，该模型在数学问题数据集上表现出色。研究结果将于2023年10月发布。

MathCodeInstruct MathCoder 微调数学推理数据集语言模型