音频 - 视觉问答的渐进时空感知

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为STA的双流注意力网络,用于视频问答。该网络能够识别视频中的长时空结构和文本特征,并将视觉和文本信息融合,提供准确答案。在TGIF-QA数据集上的实验结果显示,STA在Action、Trans、TrameQA和Count任务上表现最佳,分别提高了13.0%、13.5%、11.0%和0.3%。此外,在Action、Trans和TrameQA任务上,STA的表现也比竞争对手提高了4.1%、4.7%和5.1%。

🎯

关键要点

  • 提出了一种名为STA的双流注意力网络用于视频问答。
  • STA能够识别视频中的长时空结构和文本特征。
  • 该网络将视觉与文本信息融合以提供准确答案。
  • 在TGIF-QA数据集上,STA在Action、Trans、TrameQA和Count任务上分别提高了13.0%、13.5%、11.0%和0.3%。
  • 在Action、Trans和TrameQA任务上,STA的表现比竞争对手提高了4.1%、4.7%和5.1%。
➡️

继续阅读