本文研究了跨模态参数高效的图像到视频传递学习,提出了Spatio-Temporal Adapter,能够以较低成本实现动态视频内容的推理能力。XMAdapter通过视觉-语言双模态信息提升模型性能,实验结果表明其在准确性和效率上优于以往方法。此外,研究探讨了适配器在屏幕截图字幕任务中的应用,提出UniAdapter以实现跨模态自适应,显著减少可调参数并提升性能。
本文研究了图像到视频的传递学习,提出了Spatio-Temporal Adapter,能够以较低成本实现动态视频内容的时空推理。该适配器在少样本动作识别中表现优越,采用双通道架构和时空注意力模块,显著提升了模型性能,适用于复杂场景。
完成下面两步后,将自动完成登录并继续当前操作。