EchoFree—超轻量神经声学回声消除模型 | ASRU 2025

EchoFree—超轻量神经声学回声消除模型 | ASRU 2025

💡 原文中文,约4200字,阅读约需10分钟。
📝

内容提要

声学回声消除(AEC)是语音通信的重要技术,旨在实时分离近端语音与远端回声。西北工业大学提出的“EchoFree”模型采用超轻量级混合架构,仅需278K参数和30 MMACs计算量,适合资源受限设备,性能接近最先进的DeepVQE-S模型,为低延迟部署提供了新方案。

🎯

关键要点

  • 声学回声消除(AEC)是语音通信系统的核心预处理模块,旨在实时分离近端语音与远端回声。
  • AEC技术对保障实时通信系统的语音质量及下游任务的鲁棒性至关重要。
  • 现有基于神经网络的AEC方法在非线性回声抑制方面优于传统算法,但高参数量和计算复杂度限制了其在资源受限设备上的应用。
  • 西北工业大学提出的EchoFree模型采用超轻量级混合架构,仅需278K参数和30 MMACs计算量,适合低资源设备。
  • EchoFree模型结合线性滤波与神经后处理,利用Bark尺度的压缩功率谱表征,降低计算复杂度并保留关键语音信息。
  • 模型采用自监督学习(SSL)生成的嵌入向量,通过两阶段优化策略显著增强回声抑制能力。
  • 线性滤波模块使用分区块频域自适应卡尔曼滤波器,降低内存占用,为后续神经网络的残差回声抑制奠定基础。
  • 神经后置滤波器基于Bark尺度特征压缩的轻量化U-Net架构,采用深度可分离卷积和GRU组合,减少参数量。
  • 提出的两阶段优化策略通过MSE损失和Bark增益损失,强化模型的语义表征一致性和频谱调节能力。
  • 实验结果表明,EchoFree在ICASSP 2023盲测集上的性能显著提升,改善了频谱失真问题。

延伸问答

EchoFree模型的主要特点是什么?

EchoFree模型采用超轻量级混合架构,仅需278K参数和30 MMACs计算量,适合资源受限设备。

声学回声消除技术的作用是什么?

声学回声消除技术旨在实时分离近端语音与远端回声,保障语音通信的质量和鲁棒性。

EchoFree模型如何降低计算复杂度?

EchoFree模型结合线性滤波与神经后处理,利用Bark尺度的压缩功率谱表征,降低计算复杂度。

EchoFree模型的优化策略是什么?

模型采用自监督学习生成的嵌入向量,通过两阶段优化策略显著增强回声抑制能力。

EchoFree模型在实验中表现如何?

实验结果表明,EchoFree在ICASSP 2023盲测集上的性能显著提升,改善了频谱失真问题。

EchoFree模型与传统AEC方法相比有什么优势?

EchoFree模型在非线性回声抑制方面优于传统算法,同时具备更低的参数量和计算复杂度,适合边缘设备。

➡️

继续阅读