小红花·文摘

本文介绍了一项名为RVMR的新任务，通过自然语言查询在视频中定位匹配时刻的排名列表，并开发了TVR-Ranking数据集。通过手动注释94,442个查询-时刻对，为该任务开发了评估指标，并进行了三个基准模型的实验评估。实验结果表明，RVMR任务给现有模型带来了新的挑战，该数据集对多模态搜索的研究有所贡献。