通过附带关键音频 - 视觉线索的文本回答多样化问题
原文中文,约300字,阅读约需1分钟。发表于: 。音视频问答(AVQA)需要参考视频内容和听觉信息,然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏(MCD)的框架,以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤,我们的方法在多个问答数据集上展现出优于其他方法的表现,有趣的发现是,在推理过程中去除深度音视频特征可以有效减轻过拟合问题。
该论文提出了一种新的上下文多模态对齐网络,通过引入无参数随机上下文块来确保音频和视觉对齐。在MUSIC-AVQA数据集上,该网络相对于现有方法平均性能提高了9.4%。同时,将该方法添加到现有方法中可以提高性能,而不需要额外的复杂性要求。