音频 - 视觉问答的渐进时空感知
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为STA的双流注意力网络,用于视频问答。该网络能够识别视频中的长时空结构和文本特征,并将视觉和文本信息融合,提供准确答案。在TGIF-QA数据集上的实验结果显示,STA在Action、Trans、TrameQA和Count任务上表现最佳,分别提高了13.0%、13.5%、11.0%和0.3%。此外,在Action、Trans和TrameQA任务上,STA的表现也比竞争对手提高了4.1%、4.7%和5.1%。
🎯
关键要点
- 提出了一种名为STA的双流注意力网络用于视频问答。
- STA能够识别视频中的长时空结构和文本特征。
- 该网络将视觉与文本信息融合以提供准确答案。
- 在TGIF-QA数据集上,STA在Action、Trans、TrameQA和Count任务上分别提高了13.0%、13.5%、11.0%和0.3%。
- 在Action、Trans和TrameQA任务上,STA的表现比竞争对手提高了4.1%、4.7%和5.1%。
➡️