Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了Ferret,一个多模态大型语言模型,能够理解图像中的空间引用并执行用户界面(UI)任务。通过强化学习,Ferret在UI自动化中表现出色。此外,研究提出了UIBert模型,利用未标记的UI数据进行预训练,提升了任务的准确率。针对多模态交互中的语言歧义,提出了MUG任务,并构建了实验数据集。Auto-UI作为新解决方案,直接与界面交互,实现高准确率的动作预测,提升用户体验。

🎯

关键要点

  • Ferret 是一个多模态大型语言模型,能够理解图像中的空间引用并执行 UI 任务。

  • 通过强化学习,Ferret 在 UI 自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。

  • UIBert 是一种基于 transformer 的联合图像文本模型,通过未标记的 UI 数据进行预训练,提升了任务的准确率。

  • 针对多模态交互中的语言歧义,提出了 MUG 任务,并构建了包含 77820 组交互的实验数据集。

  • Auto-UI 是一种新解决方案,直接与界面交互,实现高准确率的动作预测,提升用户体验。

  • 实验结果显示,Auto-UI 在动作类型预测准确率上达到了 90%,整体动作成功率为 74%。

延伸问答

Ferret模型的主要功能是什么?

Ferret模型能够理解图像中的空间引用并执行用户界面(UI)任务。

UIBert模型是如何提升任务准确率的?

UIBert通过在未标记的UI数据上进行预训练,学习UI及其组件的通用特征表示,从而提升任务准确率。

MUG任务的目的是什么?

MUG任务旨在解决多模态交互中的语言歧义问题,并通过构建实验数据集来评估其效果。

Auto-UI的创新之处在哪里?

Auto-UI直接与界面交互,无需环境解析或依赖应用程序相关的API,从而实现高准确率的动作预测。

Ferret在UI自动化方面的表现如何?

Ferret在UI自动化方面表现优异,显示出作为通用UI任务自动化API的潜力。

实验结果显示Auto-UI的动作预测准确率是多少?

实验结果显示,Auto-UI在动作类型预测准确率上达到了90%。

🏷️

标签

➡️

继续阅读