本文提出了一种零样本方法,通过视觉语言模型改善视频片段与文本的对齐,显著提升视频片段检索性能。引入大规模视频时刻检索任务,开发了互补匹配网络(RMMN)和背景感知时刻检测变压器模型(BM-DETR),在多个基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。