本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关性标签,结合视频和字幕文本。提出了跨模态时刻定位网络(XML)和多模式字幕数据集(TVC),并探讨了多种视频检索方法,提升了检索效率和准确性,展示了在多个基准测试中的优越性能。
本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关视频和字幕。提出了跨模态时刻定位网络(XML)和多模态字幕数据集(TVC),旨在提高视频时刻检索的效率和性能。此外,开发了多种模型,如可靠的互补匹配网络(RMMN)和DiffusionVMR,显著提升了视频检索效果。
完成下面两步后,将自动完成登录并继续当前操作。