双模态注意力增强的文本 - 视频检索与三元局部对比学习
原文中文,约300字,阅读约需1分钟。发表于: 。通过改进对比学习方法,引入新的技术,分别利用文本和视觉线索,从中挖掘出困难负样例,并且能够自适应地确定它们对训练损失的影响;同时,通过构建部分有序三元组样本来模拟细粒度语义相似性,以提高文本 - 视频检索的性能。
CLIP2Video网络采用预训练的图像语言模型,在相对较少的数据集上进行训练,并通过两个具体阶段的框架来提升多模态相关性。在多个基准测试中实现了最新的检索准确性记录。
通过改进对比学习方法,引入新的技术,分别利用文本和视觉线索,从中挖掘出困难负样例,并且能够自适应地确定它们对训练损失的影响;同时,通过构建部分有序三元组样本来模拟细粒度语义相似性,以提高文本 - 视频检索的性能。
CLIP2Video网络采用预训练的图像语言模型,在相对较少的数据集上进行训练,并通过两个具体阶段的框架来提升多模态相关性。在多个基准测试中实现了最新的检索准确性记录。