Ferret-UI: 基于多模态 LLMS 的移动 UI 理解
内容提要
本文介绍了Ferret,一个多模态大型语言模型,能够理解图像中的空间引用并执行用户界面(UI)任务。通过强化学习,Ferret在UI自动化中表现出色。此外,研究提出了UIBert模型,利用未标记的UI数据进行预训练,提升了任务的准确率。针对多模态交互中的语言歧义,提出了MUG任务,并构建了实验数据集。Auto-UI作为新解决方案,直接与界面交互,实现高准确率的动作预测,提升用户体验。
关键要点
-
Ferret 是一个多模态大型语言模型,能够理解图像中的空间引用并执行 UI 任务。
-
通过强化学习,Ferret 在 UI 自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
-
UIBert 是一种基于 transformer 的联合图像文本模型,通过未标记的 UI 数据进行预训练,提升了任务的准确率。
-
针对多模态交互中的语言歧义,提出了 MUG 任务,并构建了包含 77820 组交互的实验数据集。
-
Auto-UI 是一种新解决方案,直接与界面交互,实现高准确率的动作预测,提升用户体验。
-
实验结果显示,Auto-UI 在动作类型预测准确率上达到了 90%,整体动作成功率为 74%。
延伸问答
Ferret模型的主要功能是什么?
Ferret模型能够理解图像中的空间引用并执行用户界面(UI)任务。
UIBert模型是如何提升任务准确率的?
UIBert通过在未标记的UI数据上进行预训练,学习UI及其组件的通用特征表示,从而提升任务准确率。
MUG任务的目的是什么?
MUG任务旨在解决多模态交互中的语言歧义问题,并通过构建实验数据集来评估其效果。
Auto-UI的创新之处在哪里?
Auto-UI直接与界面交互,无需环境解析或依赖应用程序相关的API,从而实现高准确率的动作预测。
Ferret在UI自动化方面的表现如何?
Ferret在UI自动化方面表现优异,显示出作为通用UI任务自动化API的潜力。
实验结果显示Auto-UI的动作预测准确率是多少?
实验结果显示,Auto-UI在动作类型预测准确率上达到了90%。