音频 - 视觉问答的渐进时空感知

原文约300字,阅读约需1分钟。发表于:

为了更高效地回答关于视频中的视觉对象、声音及其关联的问题,本文提出了一种渐进式时空感知网络(PSTP-Net),通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看,PSTP-Net 在有效性和效率上具备了令人信服的证据。

本文介绍了一种名为STA的双流注意力网络,用于视频问答。该网络能够识别视频中的长时空结构和文本特征,并将视觉和文本信息融合,提供准确答案。在TGIF-QA数据集上的实验结果显示,STA在Action、Trans、TrameQA和Count任务上表现最佳,分别提高了13.0%、13.5%、11.0%和0.3%。此外,在Action、Trans和TrameQA任务上,STA的表现也比竞争对手提高了4.1%、4.7%和5.1%。

相关推荐 去reddit讨论