Apple Machine Learning Research ·

UI-JEPA：通过屏幕用户活动实现用户意图的主动感知

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

介绍了UI-JEPA框架，用于学习未标记数据中的用户界面嵌入和预测用户意图。提出了两个新的UI相关数据集，用于少样本和零样本的UI理解任务。实验证明UI-JEPA在计算成本和延迟方面具有优势，并能达到大型MLLM的预测性能。突出了UI-JEPA的有效性和潜力。

🎯

关键要点

生成用户意图是全面理解用户界面的核心挑战。
现有的多模态大型语言模型在计算需求和延迟方面存在问题，不适合轻量级、低延迟的应用场景。
提出了UI-JEPA框架，通过自监督学习从未标记数据中学习抽象的用户界面嵌入。
引入了两个新的UI相关数据集，'Intent in the Wild' (IIW) 和 'Intent in the Tame' (IIT)，用于少样本和零样本的UI理解任务。
IIW包含1.7K个视频，涵盖219个意图类别；IIT包含914个视频，涵盖10个类别。
UI-JEPA在意图相似度评分上超越了GPT-4 Turbo和Claude 3.5 Sonnet，分别提高了10.0%和7.2%。
在IIW数据集中，UI-JEPA实现了50.5倍的计算成本降低和6.6倍的延迟改善。
这些结果强调了UI-JEPA的有效性和在轻量级高性能UI理解中的潜力。

🏷️

继续阅读

谷歌家居让用户更容易理解设备为何无法正常工作
谷歌家居最新更新使用户更容易解决离线设备问题。用户在设备控制页面可收到“即时账户重新链接提示”，帮助识别连接问题。此外，谷歌推出的“家居健康”项目可监测设...
亚马逊的彩色屏幕Kindle终于获得了系统范围的黑暗模式
亚马逊宣布Kindle Colorsoft和Scribe Colorsoft将推出系统范围的黑暗模式，用户可在不同界面中混合使用明暗模式。此外，Scrib...
从记录系统到控制系统：NetBox Labs 如何让网络工程师成为“意图的掌控者”
现代网络基础设施日益复杂，网络工程师需要可靠的记录系统来管理配置和变化。NetBox Labs 提供工具帮助架构师绘制网络架构，确保网络与设计一致。通过持...
作为 Snipaste 付费用户，试完 PixPin 3 我动摇了，就差最后一点细节
PixPin 3.1.4.0 版本推出，进行了界面重构，接入 AI 技术以提升识别与翻译能力，新增自动马赛克、贴图穿透和条码识别等功能。大部分功能免费，部...
「INDIE Live Expo 2026.4.25」将介绍超过200款独立游戏，包括9款全球首度公开作品。下一届活动将于2026年冬季举办
INDIE Live Expo执行委员会在2026年4月25日（周六）播出的「INDIE Live Expo 2026.4.25」中，公布并介绍了超过2...
MuleRun（骡子快跑）首发灰测HappyHorse模型，支持用户7×24小时调用
MuleRun推出了自进化个人AI，用户可以通过输入提示词调用阿里巴巴的HappyHorse 1.0视频生成模型，支持多种内容生产场景。该平台提供独立云端...

UI-JEPA：通过屏幕用户活动实现用户意图的主动感知

内容提要

关键要点

标签

继续阅读