本研究提出了一种基于自我监督学习的声音事件检测模型MAT-SED,采用掩码重构预训练策略,显著提升了在缺乏标注数据情况下的性能,尤其在DCASE2023任务4中表现优异,有效解决了传统模型的局限性。
本文探讨了多通道音频中的声音事件检测,提出了结合低级空间特征和卷积递归神经网络的方法。研究表明,使用多声道音频和空间特征显著提升了检测性能,尤其在公开数据集上表现突出。此外,介绍了SoundDet框架和双重知识蒸馏方法,强调其在实时处理和紧凑型系统中的重要性。
通过生成学习重新构建声音事件检测问题,模型学习逆转噪声处理,能从噪声查询中生成准确的事件边界。实验证明,在Urban-SED和EPIC-Sounds数据集上,模型训练速度更快且优于现有替代方法。
完成下面两步后,将自动完成登录并继续当前操作。