小红花·文摘

本研究提出了一种通过奖励引导树搜索算法提升大型语言模型（LLMs）推理能力的方法。该方法结合政策模型、奖励模型和搜索算法，显著改善了LLMs在数学推理任务中的表现，展示了其潜在价值。