细微错误的重要性:通过注入错误的自我编辑进行偏好学习
我们提出了一种名为Step-DPO的方法,通过优化推理步骤提高模型性能。研究显示,自动生成的数据比人类或GPT-4生成的数据更有效。使用10K个偏好数据对和少于500个训练步骤,模型在MATH上的准确性提高近3%。应用于Qwen2-72B-Instruct时,在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数,超过多种闭源模型。
原文中文,约400字,阅读约需1分钟。
我们提出了一种名为Step-DPO的方法,通过优化推理步骤提高模型性能。研究显示,自动生成的数据比人类或GPT-4生成的数据更有效。使用10K个偏好数据对和少于500个训练步骤,模型在MATH上的准确性提高近3%。应用于Qwen2-72B-Instruct时,在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数,超过多种闭源模型。