HVM-1:使用接近 5000 小时类人视频数据预训练的大规模视频模型
原文中文,约400字,阅读约需1分钟。发表于: 。介绍了两个预先训练的大规模视频模型 HVM-1,它们通过空时遮盖自编码器算法在几乎 5000 小时的人类类视频数据上进行预训练,表现出与以 YouTube 短视频剪辑为预训练数据的模型相当的性能,并且比图像数据上进行预训练的模型学习到更准确、更强大的对象表示。
本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。该方法在多个数据集上取得了最先进的结果,并证明了其鲁棒性。