实时互动网 ·

SpecTokenizer：压缩频谱域的轻量级流式编解码器

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

本文介绍了SpecTokenizer，一种轻量级流式神经音频编解码器，采用压缩谱域建模，显著降低计算量和参数规模。实验结果表明，其在低码率下优于现有模型，适合资源受限环境，具备良好的泛化能力和高效的部署潜力。

🎯

🔎

SpecTokenizer通过压缩谱域建模，显著降低了计算量和参数规模，使其在资源受限的环境中表现出色。这种设计不仅提高了音频处理的效率，还为边缘设备的应用提供了新的可能性，适合实时语音通信等场景。

尽管SpecTokenizer仅在LibriTTS英语数据上进行训练，但其在其他语音内容上的表现显示出较强的泛化能力。这表明其频谱域表示具有语言无关的统计结构优势，可能在多语言应用中具有潜在价值。

SpecTokenizer采用单一大码本的Residual Vector Quantization结构，虽然简化了系统复杂性，但也面临码本利用率不足的风险。通过合理的训练策略和机制，提升码本利用率至94%，显示出在设计上的创新与挑战。

❓

SpecTokenizer是一种轻量级流式神经音频编解码器，采用压缩谱域建模，显著降低计算量和参数规模。

在4 kbps码率下，SpecTokenizer的性能优于现有轻量级编解码器，保持高音质和可懂度。

SpecTokenizer的架构包括频谱分析前端、频谱域编码器、单码本RVQ量化器、频谱域生成器和多尺度判别器。

SpecTokenizer通过在压缩频谱域进行建模，结合CNN和RNN2D的多尺度结构，降低了计算复杂度。

SpecTokenizer在LibriTTS英语数据上进行训练，表现出较强的泛化能力。

单码本设计降低了系统复杂性，并便于与大模型token序列直接对接，提升了码本利用率。

🏷️