小红花·文摘

本文探讨了无约束视频中的音频视觉事件定位问题，提出了结合音频引导视觉注意力的双模态残差网络和跨模态距离学习网络。实验结果表明，音频与视觉的联合建模优于独立建模，强调了音频视觉融合的重要性，并提出了一种新的弱监督音频-视觉视频解析框架，显著提升了事件检测性能。