💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
介绍了UI-JEPA框架,用于学习未标记数据中的用户界面嵌入和预测用户意图。提出了两个新的UI相关数据集,用于少样本和零样本的UI理解任务。实验证明UI-JEPA在计算成本和延迟方面具有优势,并能达到大型MLLM的预测性能。突出了UI-JEPA的有效性和潜力。
🎯
关键要点
- 生成用户意图是全面理解用户界面的核心挑战。
- 现有的多模态大型语言模型在计算需求和延迟方面存在问题,不适合轻量级、低延迟的应用场景。
- 提出了UI-JEPA框架,通过自监督学习从未标记数据中学习抽象的用户界面嵌入。
- 引入了两个新的UI相关数据集,'Intent in the Wild' (IIW) 和 'Intent in the Tame' (IIT),用于少样本和零样本的UI理解任务。
- IIW包含1.7K个视频,涵盖219个意图类别;IIT包含914个视频,涵盖10个类别。
- UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet,分别提高了10.0%和7.2%。
- 在IIW数据集中,UI-JEPA实现了50.5倍的计算成本降低和6.6倍的延迟改善。
- 这些结果强调了UI-JEPA的有效性和在轻量级高性能UI理解中的潜力。
➡️