通过关键语义感知线索提升音频视觉问答
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种时空感知模型(TSPM),通过使用视觉和听觉暗示来感知与问题相关的关键视觉和听觉线索,从而解决了在音频视觉问答任务中的问题。该模型在多个 AVQA 基准测试中表现出色,不仅能够理解音频 - 视觉场景,而且能够有效地回答复杂问题。
这篇论文提出了一种新的上下文多模态对齐网络,通过引入无参数随机上下文块来确保音频和视觉对齐。在MUSIC-AVQA数据集上,该网络相对于现有方法平均性能提高了9.4%。同时,将该方法添加到现有方法中可以提高性能,而不需要额外的复杂性要求。