学习多目标TDOA特征用于声音事件定位与检测
📝
内容提要
本研究针对声音事件定位与检测(SELD)系统中音频特征质量对定位性能的重要性进行了探索,提出了一种基于神经广义互相关相位变换(NGCC-PHAT)的新特征,使其适用于多重重叠声音事件的TDOA估计。通过在STARSS23数据集上的测试,结果显示该方法显著提升了定位性能,超越了标准的GCC-PHAT和SALSA-Lite输入特征。
➡️