Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

原文约400字,阅读约需1分钟。发表于:

Ferret-UI 是一种专门用于增强对移动用户界面(UI)屏幕理解的多模态大型语言模型(MLLM),它具备指代、基础和推理能力,并在学习样本、编码和任务执行方面表现出色。

自主用户界面 (UI) 代理 Auto-UI 是一个多模态的解决方案,可以直接与界面交互,无需环境解析或依赖应用程序相关的 API。通过链式动作技术,帮助代理决定执行什么动作。在新的设备控制基准 AITW 上评估,实验结果显示 Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

相关推荐 去reddit讨论