本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关视频和字幕。提出了跨模态时刻定位网络(XML)和多模态字幕数据集(TVC),旨在提高视频时刻检索的效率和性能。此外,开发了多种模型,如可靠的互补匹配网络(RMMN)和DiffusionVMR,显著提升了视频检索效果。
完成下面两步后,将自动完成登录并继续当前操作。