小红花·文摘

本文提出了一种零样本方法，通过视觉语言模型改善视频片段与文本的对齐，显著提升视频片段检索性能。引入大规模视频时刻检索任务，开发了互补匹配网络（RMMN）和背景感知时刻检测变压器模型（BM-DETR），在多个基准测试中表现优异。