实时互动网 ·

ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

本文提出了一种增强的残差矢量量化（ERVQ）方法，通过优化码本内外来解决码本崩溃问题，从而提升神经音频编解码器的性能。实验结果表明，ERVQ在多种模型和比特率下显著提高了音频质量和泛化能力。

🎯

🔎

码本崩溃是神经音频编解码器中的一个重要问题，导致有效码本大小减少，影响音频质量。ERVQ方法通过优化码本内外的使用，显著提升了编解码器的性能，确保了更高的码本利用率，从而改善了音频信号的重构效果。

ERVQ引入的在线聚类策略能够动态调整码本的使用，确保每个码向量都得到优化。这种方法不仅提高了码本的利用率，还增强了音频特征的多样性，减少了信息冗余，从而提升了整体音频质量。

通过ERVQ增强的音频编解码器在zero shot文本到语音任务中表现出色，生成的语音自然度显著提高。这表明该方法在实际应用中具有良好的潜力，尤其是在需要高质量语音生成的场景中。

❓

ERVQ方法的主要目标是通过优化码本内外来解决码本崩溃问题，从而提升神经音频编解码器的性能。

ERVQ通过码本内优化和码本间优化来提高音频编解码器的性能，确保均衡和有效的码本利用率。

实验结果表明，ERVQ在多种模型和比特率下显著提高了音频质量和泛化能力。

码本内优化结合在线聚类策略和码平衡损失，码本间优化通过最小化连续量化层之间的相似性来提高量化特征的多样性。

ERVQ增强的音频编解码器在生成更具表现力和情感丰富的语音方面展现出良好的潜力。

通过ERVQ策略改进的音频编解码器在下游zero shot文本到语音任务中生成的语音自然度有显著改善。

🏷️