BRiTE:启动增强语言模型推理的强化思维过程
📝
内容提要
本研究解决了大型语言模型在复杂推理任务中生成可靠推理过程的挑战。提出了一种统一的概率框架及BRiTE算法,通过强化学习生成高质量的推理,并通过最大化推理生成的联合概率来增强基础语言模型。实验证明,该方法在不同基础模型中始终提升性能,且相较于现有方法表现更佳,能与监督微调的人类标注数据相媲美。
🏷️
标签
➡️