小红花·文摘

CLIP2Video网络采用预训练的图像语言模型，在相对较少的数据集上进行训练，并通过两个具体阶段的框架来提升多模态相关性。在多个基准测试中实现了最新的检索准确性记录。

双模态注意力增强的文本 - 视频检索与三元局部对比学习

BriefGPT - AI 论文速递 ·

CLIP2Video网络通过将图像语言预训练模型应用于视频文本检索，采用端到端方式，利用预训练的图像语言模型，通过Temporal Difference Block和Temporal Alignment Block提升多模态相关性。在MSR-VTT、MSVD和VATEX等基准上取得了最新的检索准确性记录。

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

BriefGPT - AI 论文速递 ·