语言模型的演绎闭包训练:连贯性、准确性和可更新性
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种微调策略,通过使用思维链提示最大化生成正确答案的边际对数似然,提高了语言模型的准确性。使用自学习推理器、马尔可夫链蒙特卡罗-期望最大化算法解决了采样问题,并采用控制变量技术降低了梯度估计的方差。在实验中,该技术在任务中提高了模型准确性。
🎯
关键要点
- 大型语言模型通过思维链提示逐步解决问题,提高准确性。
- 提出了一种微调策略,最大化生成正确答案的边际对数似然。
- 使用自学习推理器和马尔可夫链蒙特卡罗-期望最大化算法解决采样问题。
- 采用控制变量技术降低梯度估计的方差。
- 在GSM8K和BIG-Bench Hard任务中,该技术提高了模型准确性。
🏷️
标签
➡️