本文介绍了一种名为“原则性粗粒度接受”(PCG)的新方法,旨在加速语音生成中的推测解码。PCG通过在声学相似性组(ASGs)层面验证提议,提高了接受率和吞吐量,同时保持了语音的可懂性和说话者相似性,为加速语音令牌生成提供了有效解决方案。
该研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征,并结合预训练的神经语言模型,以提高基于声学相似性的情境偏倚。实验结果表明,该方法在不同情境偏见列表大小上相对于基线模型提高了4.62%-9.26%的WER。在稀有单词和内部测试集上,相对WER的提高分别为36.80%和23.40%。
完成下面两步后,将自动完成登录并继续当前操作。