Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码
原文中文,约8800字,阅读约需21分钟。发表于: 。背景介绍为了应对处理各类复杂音视频通信场景,如多设备、多人、多噪音场景,流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验,使用户听得清、听得真,流媒体音频技术方案融合了传统机器学习和基于AI的语音增强方案,利用深度神经网络技术方案,在语音降噪、回声消除、干扰人声消除和音频编解码等方向,为实时通信中的音频质量保驾护航。作为语音信号处理研究领域的旗舰国际会议,Interspeech...
Interspeech 2023收录了火山引擎流媒体音频团队的4篇研究论文,涵盖了语音增强、基于AI编解码、回声消除和无监督自适应语音增强等领域。他们在无监督自适应语音增强方面获得了CHiME挑战赛冠军。此外,他们还提出了轻量级语音谐波增强方法、端到端神经网络音频编码器、回声消除方法和无监督域自适应语音增强系统。