本研究介绍了电视节目检索(TVR)数据集,结合视频和字幕文本,包含109K个查询和查询类型标签。提出了多模态时刻定位网络(XML)模型,采用ConvSE模型,具有更好的效率和性能。同时,还收集了描述TVR标注时刻的相关信息,形成了多模式字幕数据集TVC。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: