Towards Open-Vocabulary Audio-Visual Event Localization
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出开放词汇音视频事件定位(OV-AVEL)任务,解决了音视频事件定位中对未知事件类别处理不足的问题。通过引入OV-AVEBench数据集和基准方法,显著提升了开放集环境下的音视频事件识别能力。
🎯
关键要点
- 本研究提出开放词汇音视频事件定位(OV-AVEL)任务,旨在解决音视频事件定位中对未知事件类别处理不足的问题。
- OV-AVEL任务要求在推理阶段定位音视频事件,并对已见和未见数据进行类别预测。
- 研究引入OV-AVEBench数据集和两个基准方法,显著提升了音视频事件识别能力。
- 研究结果表明,OV-AVEL在开放集环境下的表现尤为突出。
🏷️
标签
➡️