UI-JEPA:通过屏幕用户活动实现用户意图的主动感知

UI-JEPA:通过屏幕用户活动实现用户意图的主动感知

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

介绍了UI-JEPA框架,用于学习未标记数据中的用户界面嵌入和预测用户意图。提出了两个新的UI相关数据集,用于少样本和零样本的UI理解任务。实验证明UI-JEPA在计算成本和延迟方面具有优势,并能达到大型MLLM的预测性能。突出了UI-JEPA的有效性和潜力。

🎯

关键要点

  • 生成用户意图是全面理解用户界面的核心挑战。

  • 现有的多模态大型语言模型在计算需求和延迟方面存在问题,不适合轻量级、低延迟的应用场景。

  • 提出了UI-JEPA框架,通过自监督学习从未标记数据中学习抽象的用户界面嵌入。

  • 引入了两个新的UI相关数据集,'Intent in the Wild' (IIW) 和 'Intent in the Tame' (IIT),用于少样本和零样本的UI理解任务。

  • IIW包含1.7K个视频,涵盖219个意图类别;IIT包含914个视频,涵盖10个类别。

  • UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet,分别提高了10.0%和7.2%。

  • 在IIW数据集中,UI-JEPA实现了50.5倍的计算成本降低和6.6倍的延迟改善。

  • 这些结果强调了UI-JEPA的有效性和在轻量级高性能UI理解中的潜力。

延伸问答

UI-JEPA框架的主要功能是什么?

UI-JEPA框架通过自监督学习从未标记数据中学习用户界面嵌入,以预测用户意图。

UI-JEPA在计算成本和延迟方面的优势是什么?

UI-JEPA在IIW数据集中实现了50.5倍的计算成本降低和6.6倍的延迟改善。

UI-JEPA使用了哪些新的数据集?

UI-JEPA引入了两个新的数据集,分别是'Intent in the Wild' (IIW)和'Intent in the Tame' (IIT)。

UI-JEPA如何提高用户意图预测的准确性?

UI-JEPA通过JEPA风格的目标学习和LLM解码器的微调,提升了用户意图预测的准确性。

UI-JEPA与现有大型多模态语言模型相比有什么优势?

UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet,分别提高了10.0%和7.2%。

UI-JEPA的应用场景有哪些?

UI-JEPA适用于需要轻量级、低延迟的用户界面理解任务,特别是在隐私要求较高的场景中。

🏷️

标签

➡️

继续阅读