Sports-QA:一项针对复杂和专业体育的大规模视频问答基准测试

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

TVQA数据集包含152,545对QA对,分布在21,793个片段中,涵盖了460小时的视频。问题具有组合性质,需要系统联合定位剪辑中的相关片段,理解基于字幕的对话,并识别相关的视觉概念。作者提供了数据集分析、基线模型和多流端到端可训练的神经网络框架。

🎯

关键要点

  • TVQA数据集基于6个流行电视节目,包含152,545对QA对。
  • 数据集分布在21,793个片段中,涵盖460小时的视频。
  • 问题具有组合性质,要求系统联合定位相关片段、理解字幕对话和识别视觉概念。
  • 作者提供了数据集分析、基线模型和多流端到端可训练的神经网络框架。
➡️

继续阅读