细微错误的重要性:通过注入错误的自我编辑进行偏好学习
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大语言模型在数学推理中常见的细微错误问题,提出了一种新颖的偏好学习框架——错误注入自我编辑(RISE),通过将预定义的细微错误注入正确解的部分凭证,构建用于错误缓解的困难对。研究表明,RISE在Qwen2-7B-Instruct上的偏好学习实验中,针对GSM8K和MATH分别取得了显著提升,突显了此方法的有效性和应用潜力。
我们提出了一种名为Step-DPO的方法,通过优化推理步骤提高模型性能。研究显示,自动生成的数据比人类或GPT-4生成的数据更有效。使用10K个偏好数据对和少于500个训练步骤,模型在MATH上的准确性提高近3%。应用于Qwen2-72B-Instruct时,在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数,超过多种闭源模型。