LocSelect: 带有听觉选择性听觉定位机制的目标说话人定位
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一种具有选择性听觉机制的目标讲话者定位算法,通过给定目标讲话者的参考语音,首先生成一个依赖于讲话者的频谱图遮罩以消除干扰讲话者的语音,在经过长短期记忆网络提取过滤后的频谱图中的目标讲话者的位置。实验证实了我们提出的方法在不同尺度不变信噪比条件下相比现有算法的优越性,特别是在 SNR = -10dB 时,我们提出的网络 LocSelect 实现了 3.55 的平均绝对误差...
本文提出了一种具有选择性听觉机制的目标讲话者定位算法,通过给定目标讲话者的参考语音,消除干扰讲话者的语音,在经过长短期记忆网络提取过滤后的频谱图中的目标讲话者的位置。实验证实了该方法在不同尺度不变信噪比条件下相比现有算法的优越性。