ICASSP 2023 | 解密实时通话中基于 AI 的一些语音增强技术

💡 原文中文,约8100字,阅读约需20分钟。
📝

内容提要

火山引擎RTC音频团队在ICASSP 2023会议上发表了4篇论文,涉及特定说话人语音增强、回声消除、多通道语音增强、音质修复等方面,并在ICASSP 2023 AEC Challenge中获得多个奖项。未来,他们将继续研究自适应噪音场景、多类型修复音频信号以及轻量低复杂度模型等挑战。火山引擎RTC致力于提供全球互联网范围内高质量、低延时的实时音视频通信能力,目前已覆盖丰富实时音视频互动场景,热招音频开发工程师和音频资深算法工程师。

🎯

关键要点

  • 火山引擎RTC音频团队在ICASSP 2023会议上发表了4篇论文,涉及语音增强、回声消除等技术。
  • 团队在ICASSP 2023 AEC Challenge中获得多个奖项,展示了其技术实力。
  • 未来研究将聚焦于自适应噪音场景、多类型音频信号修复和轻量低复杂度模型。
  • 实时音视频通信技术不断演进,语音增强技术正向深度学习方案融合。
  • ICASSP会议是声学领域技术前沿的旗舰国际会议,火山引擎的论文被大会接收。
  • 特定说话人语音增强模型结合了说话人注意力模块和频带分割循环神经网络。
  • 回声消除系统结合了信号处理与深度学习技术,旨在提取高质量的近端语音信号。
  • 多通道语音增强采用傅里叶卷积注意力编码器,提升了频率特征的提取能力。
  • 音质修复系统使用两阶段模型,修复语音信号中的多种失真。
  • 火山引擎RTC音频团队在多个指标上显著优于其他参赛队伍,达到国际领先水平。
  • 未来将继续面对语音降噪、音质修复和轻量模型等挑战,作为研究重点。
➡️

继续阅读