小红花·文摘

本文介绍了CLIP2Video网络在视频文本检索中的应用，利用预训练的图像语言模型，通过两个阶段的框架提升多模态相关性。研究提出的新方法和模型如WAVER和TOPA，在多个数据集上表现优异，提升了文本到视频检索的效率与准确性。

MUSE：高效多尺度学习的文本-视频检索模型

BriefGPT - AI 论文速递 ·

本文介绍了多种基于CLIP的视觉语言模型创新方法，如AdaptSign、CLIP2Video、RankCLIP和SpeechCLIP。这些方法在手语识别、视频文本检索和对比学习等任务中表现优异，显著提升了模型的性能和准确性，尤其在零样本学习和多模态数据处理方面取得了重要进展。

SignCLIP：对比学习连接文字和手语

BriefGPT - AI 论文速递 ·

本文提出了一种层次对齐网络框架，通过将视频和文本分解为事件、动作和实体三个层次，构建层次表示以提高视频文本检索的效率和准确性。实验结果表明，该框架在多个数据集上优于现有方法，验证了层次表示的有效性。

SHE-Net：语法层次增强的文本 - 视频检索

BriefGPT - AI 论文速递 ·

本文提出了一种名为STAN的时空建模机制，旨在将图像-文本预训练模型扩展到视频领域，以提升视频文本检索和识别的性能。研究中使用了CLIP模型，结合多模态学习和对比学习框架，在多个基准数据集上取得了最新的检索准确性记录。

利用时间语境进行视频动作识别

BriefGPT - AI 论文速递 ·

CLIP2Video是一种新的视频文本检索方法，通过将图像语言预训练模型转移到视频文本检索，提升了检索准确性。

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

BriefGPT - AI 论文速递 ·

CLIP2Video是一种新的视频文本检索方法，通过将图像语言预训练模型转移到视频文本检索，提升了检索准确性。

M2-CLIP: 视频动作识别的多模态多任务自适应框架

BriefGPT - AI 论文速递 ·

CLIP2Video网络通过将图像语言预训练模型应用于视频文本检索，采用端到端方式，利用预训练的图像语言模型，通过Temporal Difference Block和Temporal Alignment Block提升多模态相关性。在MSR-VTT、MSVD和VATEX等基准上取得了最新的检索准确性记录。

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

BriefGPT - AI 论文速递 ·