本研究提出了REAL框架,用于评估自主智能体在11个常用网站的表现。通过112个实用任务,结果显示前沿语言模型的成功率最高仅为41%,揭示了自主网络导航和任务完成能力的不足。
本文介绍了一种名为Auto-Intent的方法,旨在将预训练的大型语言模型适配为特定领域的代理,专注于网络导航任务。该方法通过无监督学习发现潜在意图,显著提升了GPT和Llama代理在真实网站导航测试中的表现。
该研究探索了语言模型在复杂任务中的应用,发现当前的语言模型和检索增强型语言模型的准确性有限。研究介绍了一种新型网络代理,性能优于以前的代理。此外,研究还分析了当前系统的失败,并强调网络导航仍然是一个重大挑战。
使用通用自动评估器提高网络导航和设备控制代理性能,通过权衡推理成本、设计模块性和准确性进行实验。通过微调和推理时指导使用这些评估器来提高现有代理的性能,性能提升达到29%。在具有挑战性的领域转移场景中实现了75%的相对改进。
完成下面两步后,将自动完成登录并继续当前操作。