通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强

语音增强 (SE) 领域的最新进展已经超越了传统的掩码或信号预测方法,转而采用预训练音频模型来获取更丰富、更可迁移的特征。这些模型(例如 WavLM)可以提取有意义的音频嵌入,从而...

小米的MiLM Plus提出了一种轻量级的语音增强方法,利用预训练音频模型提取特征,通过音频编码器和降噪编码器生成清晰语音,性能优于传统模型,计算效率高。实验结果显示,该系统在语音质量和说话人保真度上具有显著优势。

通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强
原文中文,约1700字,阅读约需4分钟。发表于:
阅读原文