通过高效的后预训练来获取视频基础模型
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种从图像模型中收集视频基础模型的有效框架,方法简单直观,通过随机删除输入视频补丁和屏蔽输入文本来显著提高训练效率,并强化跨模态融合的学习,该方法在多种视频语言下游任务中取得了顶尖性能,具有极高的效率,只需要 WebVid-10M 作为预训练数据,希望我们的方法能够成为常见视频基础模型的简单但强大的替代品,提供构建这些模型的有用见解,并使大型预训练模型更易于获取和持续发展。
该研究提出了一种基准线,利用预训练的I-VL模型进行视频理解任务的最小化训练,并将视频相关任务转化为预训练目标相同的格式。在10个公共基准测试中,实现了与现有方法相当或最新的性能。同时,进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。