Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

💡 原文中文,约8800字,阅读约需21分钟。
📝

内容提要

Interspeech 2023收录了火山引擎流媒体音频团队的4篇研究论文,涵盖了语音增强、基于AI编解码、回声消除和无监督自适应语音增强等领域。他们在无监督自适应语音增强方面获得了CHiME挑战赛冠军。此外,他们还提出了轻量级语音谐波增强方法、端到端神经网络音频编码器、回声消除方法和无监督域自适应语音增强系统。

🎯

关键要点

  • Interspeech 2023收录了火山引擎流媒体音频团队的4篇研究论文,涵盖语音增强、AI编解码、回声消除和无监督自适应语音增强等领域。

  • 火山引擎团队在无监督自适应语音增强方面获得了CHiME挑战赛冠军。

  • 流媒体音频技术方案融合传统机器学习和基于AI的语音增强方案,提升音频质量。

  • 提出了一种基于可学习梳状滤波器的轻量级语音谐波增强方法,能够端到端优化。

  • 开发了基于Intra-BRNN和GB-RVQ的端到端神经网络音频编码器,显著提高了低码率语音编码质量。

  • 提出了基于两阶段渐进式神经网络的回声消除方法,能够有效抑制声学回声。

  • 无监督域自适应语音增强系统利用真实场景中的无标签数据,提升语音增强效果。

  • 火山引擎流媒体团队未来将继续研究轻量低复杂度模型及多设备效果鲁棒性等挑战。

➡️

继续阅读