本论文介绍了MCT Self-Refine算法,将大型语言模型与蒙特卡洛树搜索集成,提高了复杂数学推理任务的性能。MCTSr通过系统化的探索和启发式自我精炼机制改进了语言模型内的决策框架。实验证明MCTSr在解决奥林匹克数学问题方面效果显著,提高了多个数据集的成功率。该研究推动了语言模型在复杂推理任务中的应用,提高了决策准确性和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。