本研究提出轨迹贝尔曼残差最小化(TBRM)算法,旨在优化大型语言模型(LLM)推理中的基于值的方法。TBRM有效应用贝尔曼残差最小化思想,消除对评论家和重要性采样的需求。实验结果表明,TBRM在数学推理基准上优于基于政策的方法,同时计算和内存开销相似或更低,证明基于值的强化学习能有效提升LLM推理能力。
完成下面两步后,将自动完成登录并继续当前操作。