BriefGPT - AI 论文速递 ·

HVM-1：使用接近 5000 小时类人视频数据预训练的大规模视频模型

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了VideoMAE在自主监督视频预训练中的高效性，强调数据质量的重要性。研究提出了MVHumanNet数据集，包含4500个人的多视角行动序列，展示了在2D和3D视觉任务中的性能提升。此外，提出了一种新的人体运动生成模型，能够修复和生成完整的运动，从而提升视频行为识别性能。

🎯

❓

VideoMAE通过适当的视频屏蔽技术，展示了在自主监督视频预训练中的高效性，强调了数据质量的重要性。

MVHumanNet数据集包含4500个人的多视角行动序列、9000个日常服装、60000个运动序列和6.45亿帧的详细注释。

该模型能够修复损坏的人体动画，并从不完整的观察中生成完整的运动，提升视频行为识别性能。

通过使用MVHumanNet数据集进行实验，展示了在多个2D和3D视觉任务中的性能提升。

自监督学习通过扩大数据规模、模型大小和图像分辨率，实现了人类级的视觉目标识别能力。

MT-VAE利用动作序列之间的转换关系，学习运动方式的特征嵌入和特征变换，生成多样性且逼真的运动。

🏷️