本文介绍了一项名为RVMR的新任务,通过自然语言查询在视频中定位匹配时刻的排名列表,并开发了TVR-Ranking数据集。通过手动注释94,442个查询-时刻对,为该任务开发了评估指标,并进行了三个基准模型的实验评估。实验结果表明,RVMR任务给现有模型带来了新的挑战,该数据集对多模态搜索的研究有所贡献。
完成下面两步后,将自动完成登录并继续当前操作。