OVR:一份用于视频中开放词汇时态重复计数的数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究介绍了电视节目检索(TVR)数据集,结合视频和字幕文本,包含109K个查询和查询类型标签。提出了多模态时刻定位网络(XML)模型,采用ConvSE模型,具有更好的效率和性能。同时,还收集了描述TVR标注时刻的相关信息,形成了多模式字幕数据集TVC。

🎯

关键要点

  • 本研究介绍了电视节目检索 (TVR) 数据集,结合视频和字幕文本。

  • TVR 数据集包含 109K 个查询和查询类型标签。

  • 提出了多模态时刻定位网络 (XML) 模型,采用 ConvSE 模型,具有更好的效率和性能。

  • 收集了描述 TVR 标注时刻的相关信息,形成了多模式字幕数据集 TVC。

  • 两个数据集均可以公开获取。

➡️

继续阅读