内容提要
介绍了UI-JEPA框架,用于学习未标记数据中的用户界面嵌入和预测用户意图。提出了两个新的UI相关数据集,用于少样本和零样本的UI理解任务。实验证明UI-JEPA在计算成本和延迟方面具有优势,并能达到大型MLLM的预测性能。突出了UI-JEPA的有效性和潜力。
关键要点
-
生成用户意图是全面理解用户界面的核心挑战。
-
现有的多模态大型语言模型在计算需求和延迟方面存在问题,不适合轻量级、低延迟的应用场景。
-
提出了UI-JEPA框架,通过自监督学习从未标记数据中学习抽象的用户界面嵌入。
-
引入了两个新的UI相关数据集,'Intent in the Wild' (IIW) 和 'Intent in the Tame' (IIT),用于少样本和零样本的UI理解任务。
-
IIW包含1.7K个视频,涵盖219个意图类别;IIT包含914个视频,涵盖10个类别。
-
UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet,分别提高了10.0%和7.2%。
-
在IIW数据集中,UI-JEPA实现了50.5倍的计算成本降低和6.6倍的延迟改善。
-
这些结果强调了UI-JEPA的有效性和在轻量级高性能UI理解中的潜力。
延伸问答
UI-JEPA框架的主要功能是什么?
UI-JEPA框架通过自监督学习从未标记数据中学习用户界面嵌入,以预测用户意图。
UI-JEPA在计算成本和延迟方面的优势是什么?
UI-JEPA在IIW数据集中实现了50.5倍的计算成本降低和6.6倍的延迟改善。
UI-JEPA使用了哪些新的数据集?
UI-JEPA引入了两个新的数据集,分别是'Intent in the Wild' (IIW)和'Intent in the Tame' (IIT)。
UI-JEPA如何提高用户意图预测的准确性?
UI-JEPA通过JEPA风格的目标学习和LLM解码器的微调,提升了用户意图预测的准确性。
UI-JEPA与现有大型多模态语言模型相比有什么优势?
UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet,分别提高了10.0%和7.2%。
UI-JEPA的应用场景有哪些?
UI-JEPA适用于需要轻量级、低延迟的用户界面理解任务,特别是在隐私要求较高的场景中。