CAD - 动态音视频问题回答的上下文多模态对齐
原文中文,约300字,阅读约需1分钟。发表于: 。在这篇论文中,我们提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上,该 CAD 网络相对于现有方法平均性能提高了 9.4%。我们还证明了将我们对 AVQA...
该论文提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。该 CAD 网络相对于现有方法平均性能提高了 9.4%,并且将该建议添加到现有方法中可以提高其性能,而不需要额外的复杂性要求。