使用分岔的思维链在语言模型中进行微调,提升推理能力和自我纠正
原文中文,约400字,阅读约需1分钟。发表于: 。通过要求模型在单一推理步骤中比较多个推理链,我们提出了一种新方法 Divergent CoT (DCoT),进一步提高模型性能。通过一系列实验证明,DCoT 数据集上的微调在各种推理类型的任务上提高了模型的性能,无论模型的规模是多少。同时,我们通过经验和手动评估的结合,还表明这些性能提升源于模型在单一推理步骤中生成多个不同的推理链,表明语言模型具备自我纠正的能力。
本文介绍了一种微调策略,通过使用思维链提示最大化生成正确答案的边际对数似然,提高了大型语言模型的准确性。通过使用自学习推理器、马尔可夫链蒙特卡罗-期望最大化算法和控制变量技术,降低了梯度估计的方差。在实验中,该技术在任务中提高了模型的准确性。