UI-JEPA:通过屏幕用户活动实现用户意图的主动感知
发表于: 。本研究针对生成用户界面(UI)操作序列中用户意图的挑战,提出了一种新框架UI-JEPA,通过掩码策略和自监督学习从未标记数据中学习抽象UI嵌入,并结合经过微调的LLM解码器进行用户意图预测。同时,引入两个全新的UI基础的多模态数据集,提供高效的用户意图理解解决方案。研究表明,与现有的多模态大型语言模型相比,UI-JEPA在计算成本和延迟方面具有显著优势,展示其在轻量级高性能UI理解中的巨大潜力。
本研究针对生成用户界面(UI)操作序列中用户意图的挑战,提出了一种新框架UI-JEPA,通过掩码策略和自监督学习从未标记数据中学习抽象UI嵌入,并结合经过微调的LLM解码器进行用户意图预测。同时,引入两个全新的UI基础的多模态数据集,提供高效的用户意图理解解决方案。研究表明,与现有的多模态大型语言模型相比,UI-JEPA在计算成本和延迟方面具有显著优势,展示其在轻量级高性能UI理解中的巨大潜力。