💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
本文介绍了SpecTokenizer,一种轻量级流式神经音频编解码器,采用压缩谱域建模,显著降低计算量和参数规模。实验结果表明,其在低码率下优于现有模型,适合资源受限环境,具备良好的泛化能力和高效的部署潜力。
🎯
关键要点
- SpecTokenizer是一种轻量级流式神经音频编解码器,采用压缩谱域建模。
- 该模型显著降低了计算量和参数规模,适合资源受限环境。
- 在4 kbps码率下,SpecTokenizer的性能优于现有轻量级编解码器。
- SpecTokenizer的架构包括频谱分析前端、频谱域编码器和多尺度判别器。
- 模型采用CNN和RNN2D的多尺度结构,增强了对语音周期结构的建模能力。
- 使用单一大码本的Residual Vector Quantization结构,提升了码本利用率。
- 多周期判别器和多带多尺度STFT判别器增强了对音频细节的建模能力。
- 实验结果显示,SpecTokenizer在低码率下仍保持高音质和可懂度。
- 该模型在LibriTTS英语数据上训练,表现出较强的泛化能力。
- SpecTokenizer为低延迟、低算力场景提供了新的技术路径和研究方向。
➡️