本文提出使用多通道音频中的低级空间特征进行声音事件检测。通过扩展卷积递归神经网络以处理更多类型的特征,并将特征呈现为体积的单独层,可以更好地学习多通道音频中的声音事件。该方法在公开数据集上提高了F-score。
本研究开发了一种框架,通过自动提取标记数据并训练CRNN模型,在嘈杂环境下实现了鸟类物种声音事件检测。模型在真实数据上达到了0.73的F1分数,为PAM技术在其他物种和栖息地的应用提供了可能。
本文提出了一种新方法,将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位。通过多任务和单任务两种方法研究了在不同背景下的实现方案,并探究了与距离估计相关的损失函数。实验结果表明,在不降低准确性的情况下,可以进行三维声音事件检测、定位。
通过生成学习重新构建声音事件检测问题,模型学习逆转噪声处理,能从噪声查询中生成准确的事件边界。实验证明,在Urban-SED和EPIC-Sounds数据集上,模型训练速度更快且优于现有替代方法。
完成下面两步后,将自动完成登录并继续当前操作。