MONDAY:从视频自动构建 GUI Agents 轨迹数据

MONDAY:从视频自动构建 GUI Agents 轨迹数据

💡 原文中文,约5200字,阅读约需13分钟。
📝

内容提要

本文介绍了一种名为MONDAY的自动化框架,利用YouTube视频生成用于训练GUI智能体的任务轨迹数据集。该数据集涵盖安卓和iOS系统,包含20320个序列和312754个注释帧,旨在降低数据获取成本并提高多样性,为跨平台移动智能体的训练提供高质量数据。

🎯

关键要点

  • MONDAY是一个自动化框架,利用公开视频生成GUI智能体训练所需的任务轨迹数据集。

  • 该数据集涵盖安卓和iOS系统,包含20320个序列和312754个注释帧,旨在降低数据获取成本并提高多样性。

  • 数据集的构建过程包括从CommonCrawl网页帖子获取视频,筛选出与移动操作系统导航相关的内容。

  • 通过使用GroundingDINO和OCR技术,作者实现了手机屏幕的分离和场景转换的检测。

  • 动作识别采用了基于SoM的方法,结合视频旁白进行精确的UI元素检测和动作标注。

🔎

延伸解读

数据集的多样性与真实性

MONDAY数据集的构建涵盖了安卓和iOS系统,来源于2479个应用程序,确保了数据的多样性和真实性。这种多样性不仅有助于提高智能体的泛化能力,还能更好地适应不同用户的操作习惯和界面设计。

自动化框架的创新性

MONDAY框架通过自动化视频数据采集和处理,显著降低了数据获取成本。这种创新方法使得研究人员能够快速生成高质量的训练数据,推动了GUI智能体的研究进展,尤其是在跨平台应用中的应用潜力。

场景转换检测的挑战

在场景转换检测中,如何准确识别重要场景是一个关键挑战。作者采用基于OCR的文本变化跟踪方法,能够有效减少误判,确保动作识别的准确性。这一方法的成功应用为未来的研究提供了新的思路。

延伸问答

MONDAY框架的主要功能是什么?

MONDAY框架利用公开视频生成用于训练GUI智能体的任务轨迹数据集,降低数据获取成本并提高多样性。

MONDAY数据集包含哪些特征?

MONDAY数据集涵盖安卓和iOS系统,包含20320个序列和312754个注释帧,来自2479个应用程序。

如何从视频中提取手机屏幕以进行场景转换检测?

使用GroundingDINO技术检测手机屏幕,并通过OCR跟踪文本变化来识别场景转换。

MONDAY框架如何实现动作识别?

MONDAY框架采用基于SoM的方法,结合视频旁白进行精确的UI元素检测和动作标注。

MONDAY数据集的构建过程是怎样的?

数据集构建从CommonCrawl网页帖子获取视频,筛选与移动操作系统导航相关的内容,并进行多步筛选。

使用MONDAY数据集的优势是什么?

使用MONDAY数据集可以降低数据获取成本,提高多样性,并为跨平台移动智能体的训练提供高质量数据。

🏷️

标签

➡️

继续阅读