NotionNext BLOG ·

MONDAY：从视频自动构建 GUI Agents 轨迹数据

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

本文介绍了一种名为MONDAY的自动化框架，利用YouTube视频生成用于训练GUI智能体的任务轨迹数据集。该数据集涵盖安卓和iOS系统，包含20320个序列和312754个注释帧，旨在降低数据获取成本并提高多样性，为跨平台移动智能体的训练提供高质量数据。

🎯

❓

MONDAY框架利用公开视频生成用于训练GUI智能体的任务轨迹数据集，降低数据获取成本并提高多样性。

MONDAY数据集涵盖安卓和iOS系统，包含20320个序列和312754个注释帧，来自2479个应用程序。

使用GroundingDINO技术检测手机屏幕，并通过OCR跟踪文本变化来识别场景转换。

MONDAY框架采用基于SoM的方法，结合视频旁白进行精确的UI元素检测和动作标注。

数据集构建从CommonCrawl网页帖子获取视频，筛选与移动操作系统导航相关的内容，并进行多步筛选。

使用MONDAY数据集可以降低数据获取成本，提高多样性，并为跨平台移动智能体的训练提供高质量数据。

🏷️

Vercel Releases Open Agents to Support Background AI Coding Workflows
Vercel has launched Open Agents, an open-source app that enables the creation...
洪绘视频整理发布！快速整理视频文件名、移动文件夹工具
该应用主要用于个人视频整理，支持通过标签命名和快速修改文件名。用户可以将下载的视频集中到一个文件夹，方便管理和搜索。软件界面简洁，支持视频预览和文件操作，...
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...
生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务
生数科技推出的MotuBrain是一款具身智能机器人通用大脑，具备世界模型的预测和行动能力，展现出卓越的物理理解和行动能力。MotuBrain通过统一建模...
How gen AI agents threaten retail banks’ customer relationships
As customers increasingly turn to gen AI for financial advice and agentic AI ...
企业在AI应用中获胜的关键是首先构建数据层
Trinity Industries通过构建强大的数据基础，实现了AI驱动的转型。首席数据官Stephen Ecker指出，数据层是战略核心，解决了数据碎...