小红花·文摘

本研究提出了REAL框架，用于评估自主智能体在11个常用网站的表现。通过112个实用任务，结果显示前沿语言模型的成功率最高仅为41%，揭示了自主网络导航和任务完成能力的不足。

REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites

BriefGPT - AI 论文速递 ·

该论文提出了一种目标驱动的网络导航模型，评估智能体的自然语言理解和规划能力。研究表明，基于大规模语言模型的WebAgent在网页导航任务中的成功率提升超过50%。通过引入标准化提示模板，改进了大型语言模型的性能。此外，AutoAct框架实现了多功能模型，Conversational Web Navigation任务利用新框架Self-MAP进行复杂交互，解决了动态环境中的多步骤推理能力不足问题，展示了大语言模型在网页任务中的潜力。

自动意图：大型语言模型网页代理的自动化意图发现与自我探索

BriefGPT - AI 论文速递 ·

该论文提出了一种目标驱动的网络导航模型，评估智能体的自然语言理解和规划能力。通过多种数据集评估，展示了模型在任务完成和性能提升方面的潜力，并介绍了多模态代理的评估框架和新任务，强调了复杂用户任务中的挑战及改进方法。

WebPilot：一种多功能自主管理的网页任务执行系统，具有战略探索能力

BriefGPT - AI 论文速递 ·