可解释的对比蒙特卡罗树搜索推理
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对大型语言模型(LLMs)中蒙特卡罗树搜索(MCTS)推理速度慢、可解释性不足的问题,提出了一种新的推理算法SC-MCTS*。通过深入的消融研究和定量分析,该算法在对比解码原则的基础上设计了可解释的奖励模型,并在节点选择和反向传播策略上进行了改进,实现了推理速度平均提升51.9%及准确度提升,显著超越了已有方法。
该研究介绍了AQA-Bench,这是一个用于评估大规模语言模型在算法环境中顺序推理能力的新基准。通过互动评估协议,模型需记住访问过的节点并策略性移动。研究评估了12个语言模型,发现闭源模型如GPT-4表现优于开源模型。简单示例可能影响少样本性能,小模型在有限步骤下性能可提升,模型大小与性能的相关性不总显著。研究旨在推动对语言模型顺序推理能力的理解和增强。