实时互动网 ·

Arxiv | MagiCodec：高斯噪声注入与多阶段训练实现高保真可建模音频编码

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

本文介绍了MagiCodec，一种高性能的单层流式音频编解码器。通过高斯噪声注入和三阶段训练，MagiCodec在保持高保真重建的同时，提升了token的语义可建模性。实验结果表明，其在重建质量和下游任务上均超越现有技术，且token分布符合齐普夫定律，适合音频语言模型。

🎯

🔎

MagiCodec通过高斯噪声注入实现了对高频成分的有效衰减，促使模型更关注低频语义结构。这种方法不仅提高了token的可建模性，还在重建质量上表现出色，适合用于生成式音频任务。读者在选择音频编解码器时，可以关注其对高频成分的处理能力，以提升生成效果。

MagiCodec采用的三阶段训练框架有效避免了码本坍塌问题，确保了模型在训练过程中的稳定性和性能提升。通过逐步优化编码器和解码器，模型能够在保持高保真重建的同时，增强token的语义表达能力。这一策略为音频编解码器的设计提供了新的思路，值得研究者借鉴。

与传统的音频编解码器相比，MagiCodec在重建质量和下游任务表现上均超越了现有技术。尤其是在低比特率下，其重建质量指标如PESQ和STOI均达到最佳水平。这表明MagiCodec在音频生成领域具有更强的竞争力，适合需要高效处理的应用场景。

❓

MagiCodec是一种单层流式音频编解码器，采用高斯噪声注入和三阶段训练来提升token的语义可建模性，同时保持高保真重建。

MagiCodec通过高斯噪声注入有效衰减高频成分，促使模型关注低频语义结构，从而提高音频重建质量。

MagiCodec在零样本TTS、音素识别和情感分类等下游任务中表现优异，超越现有技术，显示出良好的语义结构和上下文依赖性。

三阶段训练框架避免了码本坍塌，支持超大码本的单层量化，提升了模型的综合性能和计算效率。

MagiCodec的token分布符合齐普夫定律，显示出良好的语义结构，适合用于音频语言模型。

MagiCodec在重建质量和下游任务上均超越现有技术，且在比特率和帧率上表现出更高的效率。

🏷️