可解释的对比蒙特卡罗树搜索推理
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z
该研究介绍了AQA-Bench,这是一个用于评估大规模语言模型在算法环境中顺序推理能力的新基准。通过互动评估协议,模型需记住访问过的节点并策略性移动。研究评估了12个语言模型,发现闭源模型如GPT-4表现优于开源模型。简单示例可能影响少样本性能,小模型在有限步骤下性能可提升,模型大小与性能的相关性不总显著。研究旨在推动对语言模型顺序推理能力的理解和增强。
原文中文,约500字,阅读约需2分钟。