BriefGPT - AI 论文速递 ·

将每个应用程序转变为代理：朝着高效的人机交互迈进，基于API优先的LLM代理

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）在用户界面自动化中的应用，提出了Auto-UI和AssistGUI等新框架，并评估了代理在复杂任务中的表现。研究表明，尽管现有方法有所提升，但在跨应用程序协作和用户约束方面仍面临挑战。通过新基准AndroidArena和AgentEval，为未来多模态代理的开发提供了方向和见解。

🎯

关键要点

自主用户界面代理旨在通过与用户界面的自动交互来促进任务自动化。
Auto-UI是一个多模态解决方案，直接与界面交互，无需环境解析或依赖应用程序相关的API。
Auto-UI在新的设备控制基准AITW上实现了90%的动作类型预测准确率和74%的整体动作成功率。
AssistGUI是一个新的基准测试框架，用于评估模型在Windows平台上操纵鼠标和键盘的能力。
尽管现有方法有所提升，最佳模型的成功率仅为46%。
LLM代理在操作系统等通用软件系统中面临广泛且动态的操作空间、跨应用程序的合作需求以及符合用户约束条件的挑战。
AndroidArena是一个环境和基准测试工具，揭示了LLM代理在跨应用程序情景和遵守特定约束方面的困难。
AgentEval框架用于验证LLM驱动应用程序的实用性，并提供与特定应用程序目标相符的评估标准。
OSWorld基准包含369个计算机任务，用于评估多模态代理在开放领域中的能力。
Windows代理竞技场提供一个可重复的环境，创建了150多个多样化任务，以提高代理的规划和工具使用能力。

❓

延伸问答

什么是Auto-UI，它的主要功能是什么？

Auto-UI是一个多模态解决方案，旨在直接与用户界面交互，促进任务自动化，无需环境解析或依赖应用程序相关的API。

AssistGUI框架的作用是什么？

AssistGUI是一个新的基准测试框架，用于评估模型在Windows平台上操纵鼠标和键盘的能力。

LLM代理在操作系统中面临哪些主要挑战？

LLM代理在操作系统中面临广泛且动态的操作空间、跨应用程序的合作需求以及符合用户约束条件的挑战。

AndroidArena的主要功能是什么？

AndroidArena是一个环境和基准测试工具，旨在揭示LLM代理在跨应用程序情景和遵守特定约束方面的困难。

AgentEval框架如何评估LLM驱动应用程序的实用性？

AgentEval框架通过提供与特定应用程序目标相符的评估标准，验证LLM驱动应用程序的实用性。

Windows代理竞技场的创新之处是什么？

Windows代理竞技场提供一个可重复的环境，创建了150多个多样化任务，以提高代理的规划和工具使用能力。

🏷️