MONDAY:从视频自动构建 GUI Agents 轨迹数据

MONDAY:从视频自动构建 GUI Agents 轨迹数据

💡 原文中文,约5200字,阅读约需13分钟。
📝

内容提要

本文介绍了一种名为MONDAY的自动化框架,利用YouTube视频生成用于训练GUI智能体的任务轨迹数据集。该数据集涵盖安卓和iOS系统,包含20320个序列和312754个注释帧,旨在降低数据获取成本并提高多样性,为跨平台移动智能体的训练提供高质量数据。

🎯

关键要点

  • MONDAY是一个自动化框架,利用公开视频生成GUI智能体训练所需的任务轨迹数据集。
  • 该数据集涵盖安卓和iOS系统,包含20320个序列和312754个注释帧,旨在降低数据获取成本并提高多样性。
  • 数据集的构建过程包括从CommonCrawl网页帖子获取视频,筛选出与移动操作系统导航相关的内容。
  • 通过使用GroundingDINO和OCR技术,作者实现了手机屏幕的分离和场景转换的检测。
  • 动作识别采用了基于SoM的方法,结合视频旁白进行精确的UI元素检测和动作标注。

延伸问答

MONDAY框架的主要功能是什么?

MONDAY框架利用公开视频生成用于训练GUI智能体的任务轨迹数据集,降低数据获取成本并提高多样性。

MONDAY数据集包含哪些特征?

MONDAY数据集涵盖安卓和iOS系统,包含20320个序列和312754个注释帧,来自2479个应用程序。

如何从视频中提取手机屏幕以进行场景转换检测?

使用GroundingDINO技术检测手机屏幕,并通过OCR跟踪文本变化来识别场景转换。

MONDAY框架如何实现动作识别?

MONDAY框架采用基于SoM的方法,结合视频旁白进行精确的UI元素检测和动作标注。

MONDAY数据集的构建过程是怎样的?

数据集构建从CommonCrawl网页帖子获取视频,筛选与移动操作系统导航相关的内容,并进行多步筛选。

使用MONDAY数据集的优势是什么?

使用MONDAY数据集可以降低数据获取成本,提高多样性,并为跨平台移动智能体的训练提供高质量数据。

➡️

继续阅读