小红花·文摘

本文研究了跨模态参数高效的图像到视频传递学习，提出了Spatio-Temporal Adapter，能够以较低成本实现动态视频内容的推理能力。XMAdapter通过视觉-语言双模态信息提升模型性能，实验结果表明其在准确性和效率上优于以往方法。此外，研究探讨了适配器在屏幕截图字幕任务中的应用，提出UniAdapter以实现跨模态自适应，显著减少可调参数并提升性能。

FE-Adapter：将基于图像的情感分类器适应于视频

BriefGPT - AI 论文速递 ·

本文研究了图像到视频的传递学习，提出了Spatio-Temporal Adapter，能够以较低成本实现动态视频内容的时空推理。该适配器在少样本动作识别中表现优越，采用双通道架构和时空注意力模块，显著提升了模型性能，适用于复杂场景。

任务适配器：针对少样本动作识别的图像模型任务专用适应

BriefGPT - AI 论文速递 ·