使用分岔的思维链在语言模型中进行微调,提升推理能力和自我纠正
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种微调策略,通过使用思维链提示最大化生成正确答案的边际对数似然,提高了大型语言模型的准确性。通过使用自学习推理器、马尔可夫链蒙特卡罗-期望最大化算法和控制变量技术,降低了梯度估计的方差。在实验中,该技术在任务中提高了模型的准确性。
🎯
关键要点
- 本文介绍了一种微调策略,通过思维链提示最大化生成正确答案的边际对数似然。
- 该策略旨在提高大型语言模型的准确性。
- 使用自学习推理器、马尔可夫链蒙特卡罗-期望最大化算法和控制变量技术来降低梯度估计的方差。
- 实验表明,该技术在GSM8K和BIG-Bench Hard任务中提高了模型的准确性。
- MCMC-EM微调技术通常优于STaR和其他微调方法。