本研究针对弱监督密集视频字幕生成中的事件边界注释不足问题,提出了一种新的隐式位置-字幕对齐方法。实验结果表明,该方法在公共数据集上优于现有的弱监督方法。
通过生成学习重新构建声音事件检测问题,模型学习逆转噪声处理,能从噪声查询中生成准确的事件边界。实验证明,在Urban-SED和EPIC-Sounds数据集上,模型训练速度更快且优于现有替代方法。
完成下面两步后,将自动完成登录并继续当前操作。