TVR-Ranking: 一份暧昧查询下的视频时刻排序检索数据集

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关视频和字幕。提出了跨模态时刻定位网络(XML)和多模态字幕数据集(TVC),旨在提高视频时刻检索的效率和性能。此外,开发了多种模型,如可靠的互补匹配网络(RMMN)和DiffusionVMR,显著提升了视频检索效果。

🎯

关键要点

  • 本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关视频和字幕。

  • 提出了跨模态时刻定位网络(XML),旨在提高视频时刻检索的效率和性能。

  • 开发了可靠的互补匹配网络(RMMN),通过对比学习提高鲁棒性,显著提升视频检索效果。

  • 引入多支视觉文本对齐模型(EVA),优化领域不变的视觉和文本特征,提升学习能力。

  • 提出了DiffusionVMR框架,通过去噪生成过程提高视频时刻检索效果。

  • 介绍了mTVR数据集,包含来自21.8K个电视节目的218K英文和中文查询。

  • 提出CONQUER模型,通过融合多模态视频内容和双向注意力实现精确定位和排序。

  • 提出BM-DETR模型,通过利用负查询和背景提高视频时刻检索效果和泛化能力。

  • 提出零样本简单方法,显著提高视频时刻检索任务的性能。

  • 提出部分相关性增强模型(PREM),在视频检索和时刻定位任务中取得更好性能。

延伸问答

什么是电视节目检索(TVR)数据集?

电视节目检索(TVR)数据集包含109K个查询及其相关视频和字幕,旨在提高视频时刻检索的效率和性能。

跨模态时刻定位网络(XML)有什么特点?

跨模态时刻定位网络(XML)采用新颖的卷积起始和结束检测器(ConvSE),提高了视频时刻检索的效率和性能。

如何提高视频时刻检索的鲁棒性?

通过开发可靠的互补匹配网络(RMMN),利用对比学习对负样本进行处理,从而提高视频时刻检索的鲁棒性。

DiffusionVMR框架的主要创新是什么?

DiffusionVMR框架将视频时刻检索重新构想为去噪生成过程,直接从噪声中采样随机时段作为候选,提升了检索效果。

mTVR数据集包含哪些语言的查询?

mTVR数据集包含218K个英文和中文查询,来自21.8K个电视节目。

CONQUER模型是如何提升视频检索效果的?

CONQUER模型通过融合多模态视频内容和双向注意力,利用查询上下文实现精确定位和排序,从而提升视频检索效果。

🏷️

标签

➡️

继续阅读