小红花·文摘

大型语言模型在推理任务中表现优异，但在复杂决策上仍存在不足。研究提出了一种自主树搜索能力，显著提高了推理准确性并降低成本。通过新基准测试SearchBench，发现现有模型在逻辑问题上表现不佳。结合A*算法和多阶段方法，提升了模型性能。实验表明，基于状态空间的交互式任务建模方法在网页导航中表现出色，缩小了与人类的差距。

语言模型代理的树搜索

BriefGPT - AI 论文速递 ·

本文介绍了基于大型语言模型（LLM）的创新方法，包括句法归纳偏差、行为树生成框架和生成式翻译范式，显著提升了文本生成的性能和质量。同时，探讨了生成模型在零样本情况下的表现及其在推理任务中的应用，提出了自主树搜索能力的新概念，并展示了在益智游戏中的显著改进。

generAItor：用于语言模型解释性和适应性的树形循环文本生成器

BriefGPT - AI 论文速递 ·