基础模型驱动的图形用户界面代理:全面综述
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
Auto-UI是一种多模态自主用户界面代理,能够直接与界面交互,避免环境解析和API依赖。通过链式动作技术,Auto-UI在新基准AITW上实现了90%的动作预测准确率和74%的成功率。
🎯
关键要点
- 自主用户界面代理旨在通过自动交互促进任务自动化。
- 现有方法依赖外部工具和API进行环境解析。
- Auto-UI是一种多模态解决方案,直接与界面交互,无需环境解析或API依赖。
- 提出了一种链式动作技术,利用先前动作历史和未来动作计划帮助代理决策。
- 在新的设备控制基准AITW上评估Auto-UI,包含30K个独特指令。
- 实验结果显示,Auto-UI实现了90%的动作预测准确率和74%的成功率。
➡️