小红花·文摘

本文探讨了VideoMAE在自主监督视频预训练中的高效性，强调数据质量的重要性。研究提出了MVHumanNet数据集，包含4500个人的多视角行动序列，展示了在2D和3D视觉任务中的性能提升。此外，提出了一种新的人体运动生成模型，能够修复和生成完整的运动，从而提升视频行为识别性能。