小红花·文摘

CLIP2Video是一种新的视频文本检索方法，通过将图像语言预训练模型转移到视频文本检索，提升了检索准确性。

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

BriefGPT - AI 论文速递 ·

CLIP2Video是一种新的视频文本检索方法，通过将图像语言预训练模型转移到视频文本检索，提升了检索准确性。

M2-CLIP: 视频动作识别的多模态多任务自适应框架

BriefGPT - AI 论文速递 ·

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

针对深度视频理解的查询感知长视频定位和关系判别

BriefGPT - AI 论文速递 ·

CLIP2Video网络通过将图像语言预训练模型应用于视频文本检索，采用端到端方式，利用预训练的图像语言模型，通过Temporal Difference Block和Temporal Alignment Block提升多模态相关性。在MSR-VTT、MSVD和VATEX等基准上取得了最新的检索准确性记录。

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

BriefGPT - AI 论文速递 ·