将每个应用程序转变为代理:朝着高效的人机交互迈进,基于API优先的LLM代理
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对当前多模态大语言模型(MLLM)在复杂任务中响应速度慢和可靠性低的问题,提出了AXIS框架,优先通过应用程序接口(API)而非用户界面(UI)进行交互。实验表明,AXIS能将任务完成时间减少65%-70%,并降低认知负荷38%-53%,同时保持97%-98%的准确率,推动了新的人机计算交互框架及应用提供者的UI设计原则。
Auto-UI 是一种多模态解决方案,通过直接与用户界面交互实现任务自动化,无需解析环境或依赖特定 API。它使用链式动作技术,利用动作历史和未来计划来辅助决策。在 AITW 基准测试中,Auto-UI 在应用操作、网络搜索和网购任务中表现优异,动作类型预测准确率达 90%,整体动作成功率为 74%。