UI-JEPA:通过屏幕用户活动实现用户意图的主动感知

UI-JEPA:通过屏幕用户活动实现用户意图的主动感知

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

介绍了UI-JEPA框架,用于学习未标记数据中的用户界面嵌入和预测用户意图。提出了两个新的UI相关数据集,用于少样本和零样本的UI理解任务。实验证明UI-JEPA在计算成本和延迟方面具有优势,并能达到大型MLLM的预测性能。突出了UI-JEPA的有效性和潜力。

🎯

关键要点

  • 生成用户意图是全面理解用户界面的核心挑战。
  • 现有的多模态大型语言模型在计算需求和延迟方面存在问题,不适合轻量级、低延迟的应用场景。
  • 提出了UI-JEPA框架,通过自监督学习从未标记数据中学习抽象的用户界面嵌入。
  • 引入了两个新的UI相关数据集,'Intent in the Wild' (IIW) 和 'Intent in the Tame' (IIT),用于少样本和零样本的UI理解任务。
  • IIW包含1.7K个视频,涵盖219个意图类别;IIT包含914个视频,涵盖10个类别。
  • UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet,分别提高了10.0%和7.2%。
  • 在IIW数据集中,UI-JEPA实现了50.5倍的计算成本降低和6.6倍的延迟改善。
  • 这些结果强调了UI-JEPA的有效性和在轻量级高性能UI理解中的潜力。
➡️

继续阅读