细微错误的重要性：通过注入错误的自我编辑进行偏好学习

本研究解决了大语言模型在数学推理中常见的细微错误问题，提出了一种新颖的偏好学习框架——错误注入自我编辑（RISE），通过将预定义的细微错误注入正确解的部分凭证，构建用于错误缓解的困难对。研究表明，RISE在Qwen2-7B-Instruct上的偏好学习实验中，针对GSM8K和MATH分别取得了显著提升，突显了此方法的有效性和应用潜力。

我们提出了一种名为Step-DPO的方法，通过优化推理步骤提高模型性能。研究显示，自动生成的数据比人类或GPT-4生成的数据更有效。使用10K个偏好数据对和少于500个训练步骤，模型在MATH上的准确性提高近3%。应用于Qwen2-72B-Instruct时，在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数，超过多种闭源模型。

MATH Qwen2-72B-Instruct Step-DPO 模型性能自动生成数据