流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

原文约300字，阅读约需1分钟。发表于：。

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

CLIP2Video网络通过将图像语言预训练模型应用于视频文本检索，采用端到端方式，利用预训练的图像语言模型，通过Temporal Difference Block和Temporal Alignment Block提升多模态相关性。在MSR-VTT、MSVD和VATEX等基准上取得了最新的检索准确性记录。