LocSelect: 带有听觉选择性听觉定位机制的目标说话人定位

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种具有选择性听觉机制的目标讲话者定位算法,通过给定目标讲话者的参考语音,消除干扰讲话者的语音,在经过长短期记忆网络提取过滤后的频谱图中的目标讲话者的位置。实验证实了该方法在不同尺度不变信噪比条件下相比现有算法的优越性。

🎯

关键要点

  • 提出了一种具有选择性听觉机制的目标讲话者定位算法。
  • 算法通过给定目标讲话者的参考语音生成频谱图遮罩,消除干扰讲话者的语音。
  • 使用长短期记忆网络提取过滤后的频谱图来定位目标讲话者。
  • 实验证实该方法在不同尺度不变信噪比条件下优于现有算法。
  • 在 SNR = -10dB 时,提出的网络 LocSelect 实现了 3.55 的平均绝对误差 (MAE) 和 87.40% 的准确度 (ACC)。
➡️

继续阅读