一项研究评估了12个多模态大语言模型(MLLM)的规划能力,发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准(APB),通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点,强调规划能力的重要性。结果显示,模型在面对不可解任务时往往盲目尝试,可能导致资源浪费和有害输出。
Agentic AI 是一种基于大型语言模型(LLM)进行自主推理、规划和行动的智能体,能够执行复杂任务并反思自身行为。其核心组件包括推理引擎、规划能力、记忆机制和工具使用能力。智能体可分为单一智能体和多智能体系统,具有不同的自主程度。这项技术将深刻影响工作方式和社会结构。
本研究探讨了大型多模态推理模型(LMRMs)在开放和不确定环境中的推理能力,提出了从任务特定模块到统一语言中心框架的演变路线图,并展望了其在复杂环境中的适应性和规划能力。
本研究提出了一种新方法,通过大语言模型(LLM)生成特定领域的启发式函数代码,以提升规划能力。结果表明,这些生成的启发式算法在未见测试任务中优于现有的状态独立启发式算法,甚至在某些领域超越了高级优化程序的效率。
本研究提出了一种创新框架,通过引入标准操作程序(SOP),解决了通用人工智能代理在实际应用中的规划能力不足和领域知识利用不充分的问题,从而提升了其在复杂任务中的决策能力和实用性。
本研究提出了一种新方法,将模型预测控制(MPC)应用于大型语言模型的提示技术,从而显著提升其规划能力和决策质量。
本研究提出Emma-X模型,旨在解决传统强化学习在不同环境和未见对象任务中的推广问题,通过结合多模态信息,增强机器人在空间推理和规划方面的能力。
本研究探讨了多模态大型语言模型在复杂环境中的规划能力不足,提出了EgoPlan-Bench2基准测试,涵盖24个日常场景,并提出了一种无训练的多模态推理方法,以提升模型的规划能力。
本研究提出了STEP框架,通过规划者、执行者、评估者和记忆存储四个组件,增强语言智能体在动态环境中的规划能力。研究结果显示,STEP在ScienceWorld基准测试中优于现有模型。
该论文提出了一种目标驱动的网络导航模型,评估智能体的自然语言理解和规划能力。研究表明,基于大规模语言模型的WebAgent在网页导航任务中的成功率提升超过50%。通过引入标准化提示模板,改进了大型语言模型的性能。此外,AutoAct框架实现了多功能模型,Conversational Web Navigation任务利用新框架Self-MAP进行复杂交互,解决了动态环境中的多步骤推理能力不足问题,展示了大语言模型在网页任务中的潜力。
文章讨论了大语言模型在规划和推理上的不足,并提出改进方法。通过提供充分信息和调整认知架构可以提升规划能力。通用架构提升推理,但领域特定架构更适合实际应用。未来模型会更智能,但定制架构仍重要。LangGraph工具有助于构建可控的认知架构,提高智能体的规划和推理能力。
大型语言模型在多步骤推理和规划上有困难。研究提出模块化代理规划器(MAP),将规划分为冲突监测、状态预测、状态评估、任务分解和协调等模块,每个模块由独立的LLM实现。MAP在图遍历、汉诺塔等任务中表现优于传统方法,显示出模块化方法的潜力。未来研究可探索模块透明性和整合性。
实验显示,大型语言模型(LLM)的规划能力有待提高。OpenAI 的 o1 模型推理能力强,但在 PlanBench 测试中规划能力不足。在 Blocksworld 和 Mystery Blocksworld 测试中,复杂问题准确率下降。o1 模型在某些实例表现好,但识别无法解决的实例能力有限。推理 token 数量限制可能影响其准确性和成本。
该论文提出了一种目标驱动的网络导航模型,评估智能体的自然语言理解和规划能力。通过多种数据集评估,展示了模型在任务完成和性能提升方面的潜力,并介绍了多模态代理的评估框架和新任务,强调了复杂用户任务中的挑战及改进方法。
该研究旨在构建一个系统,利用大型语言模型的对话和规划能力,降低人类对话者的负担并高效地规划行程。该系统在2023年对话机器人比赛预赛中取得了一定成功,并报告了比赛中的挑战。
大型语言模型(LLMs)在自主驱动接地(SDG)框架中展示了强大的自动推理和规划能力。通过自主驱动技能学习,LLM在指令遵循任务集中表现出与模仿学习方法相媲美的性能,证明了学习到的技能的有效性。
供应链技术领导者需要评估当前数据资产并开发方法来扩展规划能力,以应对新兴数据依赖性解决方案。确保基础设施组件设置以支持更多数据和更接近实时的延迟是扩展供应链规划的关键。
MindAgent是一种用于评估游戏交互中规划和协调能力的基础设施,引入了新的游戏场景和基准,评估多智能体协作效率。使用新的自动度量CoS进行全面评估,揭示获取这些技能的见解。
完成下面两步后,将自动完成登录并继续当前操作。