OVR:一份用于视频中开放词汇时态重复计数的数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究介绍了电视节目检索(TVR)数据集,结合视频和字幕文本,包含109K个查询和查询类型标签。提出了多模态时刻定位网络(XML)模型,采用ConvSE模型,具有更好的效率和性能。同时,还收集了描述TVR标注时刻的相关信息,形成了多模式字幕数据集TVC。
🎯
关键要点
-
本研究介绍了电视节目检索 (TVR) 数据集,结合视频和字幕文本。
-
TVR 数据集包含 109K 个查询和查询类型标签。
-
提出了多模态时刻定位网络 (XML) 模型,采用 ConvSE 模型,具有更好的效率和性能。
-
收集了描述 TVR 标注时刻的相关信息,形成了多模式字幕数据集 TVC。
-
两个数据集均可以公开获取。
➡️