面向开放词汇的音视频事件定位
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了当前音视频事件定位任务中对未知事件类别处理能力不足的问题。提出开放词汇音视频事件定位(OV-AVEL)任务,要求在推理阶段定位音视频事件并对已见和未见数据进行类别预测。研究结果表明,通过引入OV-AVEBench数据集和两个基准方法,显著提高了音视频事件识别的能力,尤其是在开放集环境下的表现。
本研究提出开放词汇音视频事件定位(OV-AVEL)任务,解决了未知事件类别处理不足的问题。通过引入OV-AVEBench数据集,显著提升了音视频事件识别能力,尤其在开放集环境下表现突出。