基于编解码器的语音合成加速方法:多令牌预测与推测解码
原文中文,约300字,阅读约需1分钟。发表于: 。本文针对编解码器语音合成系统的速度与质量兼顾问题提出了一种改进的推理方法,允许在推理过程中灵活调整速度和质量的平衡,而无需额外训练。核心创新在于在自回归模块的每个推理步骤中同时预测多个令牌,从而线性减少合成时间,并采用基于维特比算法的推测解码技术优化生成令牌序列。实验表明,预测每个令牌的时间减少了4到5倍,同时语音可懂度没有明显下降,甚至有所提升。
本文介绍了一种改进的推理方法,通过在自回归模块中同时预测多个令牌,显著减少语音合成时间,并使用维特比算法优化生成序列。实验结果表明,预测时间缩短4到5倍,语音可懂度没有明显下降,甚至有所提升。