小红花·文摘

研究人员教大型语言模型解决复杂规划挑战

MIT News - Artificial intelligence ·

本研究提出了ACPBench Hard，以评估现有模型在规划任务中的推理能力。结果显示，最先进的语言模型在这些任务中的准确率未超过65%，表明仍需改进。

ACPBench Hard：关于行动、变化和规划的无限制推理

BriefGPT - AI 论文速递 ·

DeepMind的新研究“Mind Evolution”结合遗传算法，将大语言模型在规划任务中的成功率从5%提升至95%。该方法无需微调，显著降低成本，能够直接处理自然语言问题，避免了传统方法的复杂性。实验结果显示，Mind Evolution在各种任务中表现优异，尤其在复杂任务中更具优势。

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

量子位 ·

亚利桑那州立大学的研究表明，o1-preview在复杂规划任务中表现优于o1-mini，尤其在Blockworlds任务中准确率达到98%，而mini仅为56.6%。尽管o1-preview在规划能力上表现出色，但在识别不可解问题和处理长任务时仍有不足，且成本较高，需权衡性能与成本。

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

量子位 ·

本文介绍了Kc语言及其在规划任务中的应用，探讨了复杂性和逻辑程序转化的方法。研究表明，基于答案集规划的方法在解决复杂问题方面有效，并提出了结合自动学习和规划的技术，展示了在多种实验中的有效性和性能提升。

从输入规划中学习行动成本

BriefGPT - AI 论文速递 ·

本文研究了大语言模型（LLMs）在规划任务中的能力，发现其自主生成可执行计划的成功率仅为3%。提出了LLM + P框架，结合经典计划器的优点，有效解决规划问题。AdaPlanner通过闭环反馈改进计划生成，实验表明其在复杂环境中表现优于现有算法。此外，研究探讨了LLMs与经典规划方法结合的潜力，提出了新方法SimPlan和PDoctor，以提高规划能力并检测错误。

我们能依赖大型语言模型代理生成长远规划吗？以旅行规划者为例

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在规划任务中的应用，发现其在将自然语言目标转化为结构化计划方面表现有限，尤其在数字和物理推理任务中。通过结合传统规划器与LLMs，提出了LLM + P框架，有效解决规划问题。此外，研究开发了基于LLMs的计划能力评估，显示自主生成可执行计划的成功率仅约3%。

支持不完整用户查询的 LLM + 推理 + 规划在 API 存在的情况下

BriefGPT - AI 论文速递 ·

本文重新评估了自动驾驶系统的规划任务评估方法，提出了一种基于多层感知器（MLP）的方法，利用原始传感器数据直接输出未来轨迹。在nuScenes数据集上，该方法实现了先进的规划性能，平均L2错误降低约30%。同时，分析了规划任务的关键因素，提出了新的评估指标以解决现有基准测试的偏见问题，并建议学术界重新审视相关研究。

自主驾驶中的高效主动学习：基于车辆动力学的场景表示来进行轨迹预测的无视觉感知

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）在自然语言处理和推理任务中表现优异，但资源需求高。研究提出了一种混合方法SimPlan，评估其在规划任务中的表现，发现LLMs在自主规划方面能力有限，但在启发式模式下表现较好。该研究旨在推动LLMs在自动规划中的应用。

通过效率视角进行语言模型的规划

BriefGPT - AI 论文速递 ·

本文提出了一种新型系统，利用语言模型进行多步逻辑推理，并结合显式计划以提高推理决策的准确性。实验结果显示，该系统在多项选择题任务中表现优异，显式计划对性能至关重要。此外，研究探讨了将自然语言指令转化为可行行动序列的方式，并评估了大型语言模型在规划任务中的能力，发现其成功率有限。未来希望能更好地融合语言模型与形式规划的优点。

用程式化警告和提示数据集评估语言模型的隐性规划技能

BriefGPT - AI 论文速递 ·