小红花·文摘

本研究提出轨迹贝尔曼残差最小化（TBRM）算法，旨在优化大型语言模型（LLM）推理中的基于值的方法。TBRM有效应用贝尔曼残差最小化思想，消除对评论家和重要性采样的需求。实验结果表明，TBRM在数学推理基准上优于基于政策的方法，同时计算和内存开销相似或更低，证明基于值的强化学习能有效提升LLM推理能力。