小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI 范式雷达:《从端到端成功率到细粒度规划诊断》

一项研究评估了12个多模态大语言模型(MLLM)的规划能力,发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准(APB),通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点,强调规划能力的重要性。结果显示,模型在面对不可解任务时往往盲目尝试,可能导致资源浪费和有害输出。

AI 范式雷达:《从端到端成功率到细粒度规划诊断》

Micropaper
Micropaper · 2026-06-11T00:00:00Z

Agentic AI 是一种基于大型语言模型(LLM)进行自主推理、规划和行动的智能体,能够执行复杂任务并反思自身行为。其核心组件包括推理引擎、规划能力、记忆机制和工具使用能力。智能体可分为单一智能体和多智能体系统,具有不同的自主程度。这项技术将深刻影响工作方式和社会结构。

Agentic AI设计模式

dotNET跨平台
dotNET跨平台 · 2025-06-30T00:02:24Z

本研究探讨了大型多模态推理模型(LMRMs)在开放和不确定环境中的推理能力,提出了从任务特定模块到统一语言中心框架的演变路线图,并展望了其在复杂环境中的适应性和规划能力。

Perception, Reasoning, Thinking, and Planning: A Survey of Large Multimodal Reasoning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种新方法,通过大语言模型(LLM)生成特定领域的启发式函数代码,以提升规划能力。结果表明,这些生成的启发式算法在未见测试任务中优于现有的状态独立启发式算法,甚至在某些领域超越了高级优化程序的效率。

Classical Planning with LLM-Generated Heuristics: Challenging the Status Quo with Python Code

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本研究提出了一种创新框架,通过引入标准操作程序(SOP),解决了通用人工智能代理在实际应用中的规划能力不足和领域知识利用不充分的问题,从而提升了其在复杂任务中的决策能力和实用性。

Standard Operating Procedure-Driven General Artificial Intelligence Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究提出了一种新方法,将模型预测控制(MPC)应用于大型语言模型的提示技术,从而显著提升其规划能力和决策质量。

LLMPC:大型语言模型预测控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出Emma-X模型,旨在解决传统强化学习在不同环境和未见对象任务中的推广问题,通过结合多模态信息,增强机器人在空间推理和规划方面的能力。

Emma-X: A Multimodal Action Model with Foundational Thinking Chains and Anticipatory Spatial Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究探讨了多模态大型语言模型在复杂环境中的规划能力不足,提出了EgoPlan-Bench2基准测试,涵盖24个日常场景,并提出了一种无训练的多模态推理方法,以提升模型的规划能力。

EgoPlan-Bench2:用于多模态大型语言模型规划的基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了STEP框架,通过规划者、执行者、评估者和记忆存储四个组件,增强语言智能体在动态环境中的规划能力。研究结果显示,STEP在ScienceWorld基准测试中优于现有模型。

Step by Step: Language Agents as Incremental Planners

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

该论文提出了一种目标驱动的网络导航模型,评估智能体的自然语言理解和规划能力。研究表明,基于大规模语言模型的WebAgent在网页导航任务中的成功率提升超过50%。通过引入标准化提示模板,改进了大型语言模型的性能。此外,AutoAct框架实现了多功能模型,Conversational Web Navigation任务利用新框架Self-MAP进行复杂交互,解决了动态环境中的多步骤推理能力不足问题,展示了大语言模型在网页任务中的潜力。

自动意图:大型语言模型网页代理的自动化意图发现与自我探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z
为智能体进行规划 [译]

文章讨论了大语言模型在规划和推理上的不足,并提出改进方法。通过提供充分信息和调整认知架构可以提升规划能力。通用架构提升推理,但领域特定架构更适合实际应用。未来模型会更智能,但定制架构仍重要。LangGraph工具有助于构建可控的认知架构,提高智能体的规划和推理能力。

为智能体进行规划 [译]

宝玉的分享
宝玉的分享 · 2024-10-11T02:15:20Z

大型语言模型在多步骤推理和规划上有困难。研究提出模块化代理规划器(MAP),将规划分为冲突监测、状态预测、状态评估、任务分解和协调等模块,每个模块由独立的LLM实现。MAP在图遍历、汉诺塔等任务中表现优于传统方法,显示出模块化方法的潜力。未来研究可探索模块透明性和整合性。

新的AI架构提升大型语言模型的规划能力

DEV Community
DEV Community · 2024-10-07T10:04:57Z
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

实验显示,大型语言模型(LLM)的规划能力有待提高。OpenAI 的 o1 模型推理能力强,但在 PlanBench 测试中规划能力不足。在 Blocksworld 和 Mystery Blocksworld 测试中,复杂问题准确率下降。o1 模型在某些实例表现好,但识别无法解决的实例能力有限。推理 token 数量限制可能影响其准确性和成本。

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

机器之心
机器之心 · 2024-09-24T13:14:38Z

该论文提出了一种目标驱动的网络导航模型,评估智能体的自然语言理解和规划能力。通过多种数据集评估,展示了模型在任务完成和性能提升方面的潜力,并介绍了多模态代理的评估框架和新任务,强调了复杂用户任务中的挑战及改进方法。

WebPilot:一种多功能自主管理的网页任务执行系统,具有战略探索能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

该研究旨在构建一个系统,利用大型语言模型的对话和规划能力,降低人类对话者的负担并高效地规划行程。该系统在2023年对话机器人比赛预赛中取得了一定成功,并报告了比赛中的挑战。

发展交互式旅游规划:由大型语言模型驱动的对话机器人系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-21T00:00:00Z

大型语言模型(LLMs)在自主驱动接地(SDG)框架中展示了强大的自动推理和规划能力。通过自主驱动技能学习,LLM在指令遵循任务集中表现出与模仿学习方法相媲美的性能,证明了学习到的技能的有效性。

LanGWM: 语言引导的世界模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

大型语言模型(LLMs)在自主驱动接地(SDG)框架中展示了强大的自动推理和规划能力。通过自主驱动技能学习,LLM在指令遵循任务集中表现出与模仿学习方法相媲美的性能,证明了学习到的技能的有效性。

大型语言模型是假定的语义基础还是猜测?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z
供应链规划改进的数据中心策略

供应链技术领导者需要评估当前数据资产并开发方法来扩展规划能力,以应对新兴数据依赖性解决方案。确保基础设施组件设置以支持更多数据和更接近实时的延迟是扩展供应链规划的关键。

供应链规划改进的数据中心策略

Gartner Blog Network
Gartner Blog Network · 2023-10-03T09:00:34Z

MindAgent是一种用于评估游戏交互中规划和协调能力的基础设施,引入了新的游戏场景和基准,评估多智能体协作效率。使用新的自动度量CoS进行全面评估,揭示获取这些技能的见解。

MindAgent:新兴游戏互动

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码