BriefGPT - AI 论文速递 ·

代理工作流记忆

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了基于大型语言模型的智能代理在网络任务中的应用与挑战，提出了Self-MAP和MMInA等框架和基准任务，以提高代理的任务完成率和交互能力。实验表明，代理在复杂环境中的表现仍需提升，特别是在长时间任务中的工作记忆管理。

🎯

❓

Self-MAP框架通过记忆利用和自我反思技术，提高代理的交互能力，帮助其在复杂环境中有效处理用户指令。

MMInA基准评估了多模态网站的自主体代理在复杂用户任务中的表现，特别是在长链多跳任务中的挑战。

HiAgent框架通过层次化管理子目标，将其作为记忆块进行管理，从而显著提高了长时间任务的成功率和效率。

WebAgent在网页导航任务中的成功率提升超过50%，显示出其在执行此类任务中的有效性。

在WebArena基准测试中，代理的任务完成率提高了31%。

大型语言模型在长时间任务中的工作记忆管理不足，导致其在复杂任务中的表现不尽如人意。

🏷️