Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

自主用户界面 (UI) 代理 Auto-UI 是一个多模态的解决方案,可以直接与界面交互,无需环境解析或依赖应用程序相关的 API。通过链式动作技术,帮助代理决定执行什么动作。在新的设备控制基准 AITW 上评估,实验结果显示 Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

🎯

关键要点

  • 自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。
  • 现有方法依赖外部工具和应用特定的 API,将环境解析为文本元素并解释预测的动作。
  • Auto-UI 是一个多模态的解决方案,直接与界面交互,无需环境解析或依赖应用程序相关的 API。
  • 提出了一种链式动作技术,利用一系列中间的先前动作历史和未来动作计划,帮助代理决定执行什么动作。
  • 在新的设备控制基准 AITW 上评估,包含 30K 个独特的指令,涵盖多步任务。
  • 实验结果显示 Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。
🏷️

标签

➡️

继续阅读