本研究提出开放词汇音视频事件定位(OV-AVEL)任务,解决了音视频事件定位中对未知事件类别处理不足的问题。通过引入OV-AVEBench数据集和基准方法,显著提升了开放集环境下的音视频事件识别能力。
本文探讨了无约束视频中的音频视觉事件定位问题,提出了结合音频引导视觉注意力的双模态残差网络和跨模态距离学习网络。实验结果表明,音频与视觉的联合建模优于独立建模,强调了音频视觉融合的重要性,并提出了一种新的弱监督音频-视觉视频解析框架,显著提升了事件检测性能。
完成下面两步后,将自动完成登录并继续当前操作。