UI-JEPA:通过屏幕用户活动实现用户意图的主动感知
原文英文,约300词,阅读约需1分钟。发表于: 。Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have...
介绍了UI-JEPA框架,用于学习未标记数据中的用户界面嵌入和预测用户意图。提出了两个新的UI相关数据集,用于少样本和零样本的UI理解任务。实验证明UI-JEPA在计算成本和延迟方面具有优势,并能达到大型MLLM的预测性能。突出了UI-JEPA的有效性和潜力。