BriefGPT - AI 论文速递 ·

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了Ferret，一个多模态大型语言模型，能够理解图像中的空间引用并执行用户界面（UI）任务。通过强化学习，Ferret在UI自动化中表现出色。此外，研究提出了UIBert模型，利用未标记的UI数据进行预训练，提升了任务的准确率。针对多模态交互中的语言歧义，提出了MUG任务，并构建了实验数据集。Auto-UI作为新解决方案，直接与界面交互，实现高准确率的动作预测，提升用户体验。

🎯

关键要点

Ferret 是一个多模态大型语言模型，能够理解图像中的空间引用并执行 UI 任务。
通过强化学习，Ferret 在 UI 自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。
UIBert 是一种基于 transformer 的联合图像文本模型，通过未标记的 UI 数据进行预训练，提升了任务的准确率。
针对多模态交互中的语言歧义，提出了 MUG 任务，并构建了包含 77820 组交互的实验数据集。
Auto-UI 是一种新解决方案，直接与界面交互，实现高准确率的动作预测，提升用户体验。
实验结果显示，Auto-UI 在动作类型预测准确率上达到了 90%，整体动作成功率为 74%。

❓

延伸问答

Ferret模型的主要功能是什么？

Ferret模型能够理解图像中的空间引用并执行用户界面（UI）任务。

UIBert模型是如何提升任务准确率的？

UIBert通过在未标记的UI数据上进行预训练，学习UI及其组件的通用特征表示，从而提升任务准确率。

MUG任务的目的是什么？

MUG任务旨在解决多模态交互中的语言歧义问题，并通过构建实验数据集来评估其效果。

Auto-UI的创新之处在哪里？

Auto-UI直接与界面交互，无需环境解析或依赖应用程序相关的API，从而实现高准确率的动作预测。

Ferret在UI自动化方面的表现如何？

Ferret在UI自动化方面表现优异，显示出作为通用UI任务自动化API的潜力。

实验结果显示Auto-UI的动作预测准确率是多少？

实验结果显示，Auto-UI在动作类型预测准确率上达到了90%。

🏷️