通过轨迹收集和过程奖励合成学习基于规划的推理
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究人员发现大型语言模型(LLMs)在处理推理步骤时存在一致性问题。通过引入“规划标记”作为指南并微调模型参数,解决了这个问题,并在三个数学问题数据集上取得了显著的准确性提升。
🎯
关键要点
- 大型语言模型(LLMs)在推理步骤的一致性方面存在问题。
- 现有方法过于依赖数据驱动,忽视了模型推理能力的结构方面。
- 研究引入了“规划标记”作为推理步骤的指南。
- 规划标记与模型参数一起微调,增加的可训练参数仅占总参数的0.001%。
- 该方法在三种不同的LLMs上应用,并在三个数学问题数据集上评估。
- 相对于原始链式思维微调基准,取得了显著的准确性提升。
➡️