小红花·文摘

文章讨论了通过错误恢复和任务系统增强大型语言模型（LLM）的能力。针对常见故障（如输出截断、输入过长等），提出了自我恢复的方法。任务系统将大目标拆分为小任务，支持持久化和依赖管理，提升规划能力。后台任务功能允许LLM在执行耗时操作时继续处理其他任务，保持高效性。

AI in Harness（二）——错误恢复、任务规划与后台执行：Error Recovery、Task System 与 Background Task

犀利豆的博客 ·

AI 范式雷达：《从端到端成功率到细粒度规划诊断》

Micropaper ·

Agentic AI 是一种基于大型语言模型（LLM）进行自主推理、规划和行动的智能体，能够执行复杂任务并反思自身行为。其核心组件包括推理引擎、规划能力、记忆机制和工具使用能力。智能体可分为单一智能体和多智能体系统，具有不同的自主程度。这项技术将深刻影响工作方式和社会结构。

Agentic AI设计模式

dotNET跨平台 ·

本研究探讨了大型多模态推理模型（LMRMs）在开放和不确定环境中的推理能力，提出了从任务特定模块到统一语言中心框架的演变路线图，并展望了其在复杂环境中的适应性和规划能力。

Perception, Reasoning, Thinking, and Planning: A Survey of Large Multimodal Reasoning Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过大语言模型（LLM）生成特定领域的启发式函数代码，以提升规划能力。结果表明，这些生成的启发式算法在未见测试任务中优于现有的状态独立启发式算法，甚至在某些领域超越了高级优化程序的效率。

Classical Planning with LLM-Generated Heuristics: Challenging the Status Quo with Python Code

BriefGPT - AI 论文速递 ·

本研究提出了一种创新框架，通过引入标准操作程序（SOP），解决了通用人工智能代理在实际应用中的规划能力不足和领域知识利用不充分的问题，从而提升了其在复杂任务中的决策能力和实用性。

Standard Operating Procedure-Driven General Artificial Intelligence Agents

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将模型预测控制（MPC）应用于大型语言模型的提示技术，从而显著提升其规划能力和决策质量。

LLMPC：大型语言模型预测控制

BriefGPT - AI 论文速递 ·

本研究提出Emma-X模型，旨在解决传统强化学习在不同环境和未见对象任务中的推广问题，通过结合多模态信息，增强机器人在空间推理和规划方面的能力。

Emma-X: A Multimodal Action Model with Foundational Thinking Chains and Anticipatory Spatial Reasoning

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大型语言模型在复杂环境中的规划能力不足，提出了EgoPlan-Bench2基准测试，涵盖24个日常场景，并提出了一种无训练的多模态推理方法，以提升模型的规划能力。

EgoPlan-Bench2：用于多模态大型语言模型规划的基准测试

BriefGPT - AI 论文速递 ·

本研究提出了STEP框架，通过规划者、执行者、评估者和记忆存储四个组件，增强语言智能体在动态环境中的规划能力。研究结果显示，STEP在ScienceWorld基准测试中优于现有模型。

Step by Step: Language Agents as Incremental Planners

BriefGPT - AI 论文速递 ·

该论文提出了一种目标驱动的网络导航模型，评估智能体的自然语言理解和规划能力。研究表明，基于大规模语言模型的WebAgent在网页导航任务中的成功率提升超过50%。通过引入标准化提示模板，改进了大型语言模型的性能。此外，AutoAct框架实现了多功能模型，Conversational Web Navigation任务利用新框架Self-MAP进行复杂交互，解决了动态环境中的多步骤推理能力不足问题，展示了大语言模型在网页任务中的潜力。