语言模型的演绎闭包训练:连贯性、准确性和可更新性

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种微调策略,通过使用思维链提示最大化生成正确答案的边际对数似然,提高了语言模型的准确性。使用自学习推理器、马尔可夫链蒙特卡罗-期望最大化算法解决了采样问题,并采用控制变量技术降低了梯度估计的方差。在实验中,该技术在任务中提高了模型准确性。

🎯

关键要点

  • 大型语言模型通过思维链提示逐步解决问题,提高准确性。
  • 提出了一种微调策略,最大化生成正确答案的边际对数似然。
  • 使用自学习推理器和马尔可夫链蒙特卡罗-期望最大化算法解决采样问题。
  • 采用控制变量技术降低梯度估计的方差。
  • 在GSM8K和BIG-Bench Hard任务中,该技术提高了模型准确性。
🏷️

标签

➡️

继续阅读