Agentic AI 是一种基于大型语言模型(LLM)进行自主推理、规划和行动的智能体,能够执行复杂任务并反思自身行为。其核心组件包括推理引擎、规划能力、记忆机制和工具使用能力。智能体可分为单一智能体和多智能体系统,具有不同的自主程度。这项技术将深刻影响工作方式和社会结构。
本研究探讨了大型多模态推理模型(LMRMs)在开放和不确定环境中的推理能力,提出了从任务特定模块到统一语言中心框架的演变路线图,并展望了其在复杂环境中的适应性和规划能力。
本研究提出了一种新方法,通过大语言模型(LLM)生成特定领域的启发式函数代码,以提升规划能力。结果表明,这些生成的启发式算法在未见测试任务中优于现有的状态独立启发式算法,甚至在某些领域超越了高级优化程序的效率。
本研究提出了一种创新框架,通过引入标准操作程序(SOP),解决了通用人工智能代理在实际应用中的规划能力不足和领域知识利用不充分的问题,从而提升了其在复杂任务中的决策能力和实用性。
本研究提出了一种新方法,将模型预测控制(MPC)应用于大型语言模型的提示技术,从而显著提升其规划能力和决策质量。
本研究提出Emma-X模型,旨在解决传统强化学习在不同环境和未见对象任务中的推广问题,通过结合多模态信息,增强机器人在空间推理和规划方面的能力。
本研究探讨了多模态大型语言模型在复杂环境中的规划能力不足,提出了EgoPlan-Bench2基准测试,涵盖24个日常场景,并提出了一种无训练的多模态推理方法,以提升模型的规划能力。
本研究提出了STEP框架,通过规划者、执行者、评估者和记忆存储四个组件,增强语言智能体在动态环境中的规划能力。研究结果显示,STEP在ScienceWorld基准测试中优于现有模型。
文章讨论了大语言模型在规划和推理上的不足,并提出改进方法。通过提供充分信息和调整认知架构可以提升规划能力。通用架构提升推理,但领域特定架构更适合实际应用。未来模型会更智能,但定制架构仍重要。LangGraph工具有助于构建可控的认知架构,提高智能体的规划和推理能力。
大型语言模型在多步骤推理和规划上有困难。研究提出模块化代理规划器(MAP),将规划分为冲突监测、状态预测、状态评估、任务分解和协调等模块,每个模块由独立的LLM实现。MAP在图遍历、汉诺塔等任务中表现优于传统方法,显示出模块化方法的潜力。未来研究可探索模块透明性和整合性。
实验显示,大型语言模型(LLM)的规划能力有待提高。OpenAI 的 o1 模型推理能力强,但在 PlanBench 测试中规划能力不足。在 Blocksworld 和 Mystery Blocksworld 测试中,复杂问题准确率下降。o1 模型在某些实例表现好,但识别无法解决的实例能力有限。推理 token 数量限制可能影响其准确性和成本。
本研究介绍了一个新的长格式数据库问答数据集,用于评估大型语言模型与SQL解释器的互动。研究发现,即使对于最先进的GPT-4模型,这个任务也存在巨大挑战。研究还确定了规划能力和生成多个SQL查询能力是两个主要瓶颈。为了解决评估答案质量的挑战,引入了一个多代理评估框架,增强了评估的精确性和可靠性。该框架使我们能够更加细致地了解当前语言模型在复杂任务中的优点和局限性。
Optimus-1是一个在Minecraft中具有更好规划和反思能力的多模态代理。实验结果显示,Optimus-1在挑战性任务上优于其他代理,接近人类水平。多模态大型语言模型支撑Optimus-1,实验结果显示其在许多任务上优于GPT-4V基线,具有强大泛化能力。
提出了一种基于3D感知、推理和行动的3D-VLA模型,通过引入交互令牌与具体环境进行交互,训练一系列融入大规模3D语言模型的生成扩散模型以预测目标图像和点云。在大规模数据集上的实验中展示了3D-VLA在推理、多模态生成和规划能力上的显著改进,展示了其在真实世界应用中的潜力。
该研究旨在构建一个系统,利用大型语言模型的对话和规划能力,降低人类对话者的负担并高效地规划行程。该系统在2023年对话机器人比赛预赛中取得了一定成功,并报告了比赛中的挑战。
大型语言模型(LLMs)在自主驱动接地(SDG)框架中展示了强大的自动推理和规划能力。通过自主驱动技能学习,LLM在指令遵循任务集中表现出与模仿学习方法相媲美的性能,证明了学习到的技能的有效性。
供应链技术领导者需要评估当前数据资产并开发方法来扩展规划能力,以应对新兴数据依赖性解决方案。确保基础设施组件设置以支持更多数据和更接近实时的延迟是扩展供应链规划的关键。
MindAgent是一种用于评估游戏交互中规划和协调能力的基础设施,引入了新的游戏场景和基准,评估多智能体协作效率。使用新的自动度量CoS进行全面评估,揭示获取这些技能的见解。
完成下面两步后,将自动完成登录并继续当前操作。