ZeroI2V:从图像到视频的零成本预训练 Transformer 适应
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种零成本适应范式(ZeroI2V)来将图像变换器应用于视频识别任务,实现图像到视频的快速转换和零额外计算成本。通过引入空间 - 时间双头注意力(STDHA)和轻量级线性适配器的线性适应策略,实现了对视频动态性和图像与视频之间的领域差异的处理,达到与先前最先进的方法相当甚至超过的参数和推理效率。
该研究提出了一种基准线,利用预训练的I-VL模型进行视频理解任务的最小化训练,并将视频相关任务转化为预训练目标相同的格式。在10个公共基准测试中,实现了与现有方法相当或最新的性能。同时,进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。