本研究提出了一种通过奖励引导树搜索算法提升大型语言模型(LLMs)推理能力的方法。该方法结合政策模型、奖励模型和搜索算法,显著改善了LLMs在数学推理任务中的表现,展示了其潜在价值。
完成下面两步后,将自动完成登录并继续当前操作。