本文介绍了一种名为“原则性粗粒度接受”(PCG)的新方法,旨在加速语音生成中的推测解码。PCG通过在声学相似性组(ASGs)层面验证提议,提高了接受率和吞吐量,同时保持了语音的可懂性和说话者相似性,为加速语音令牌生成提供了有效解决方案。
本研究提出AlignDiT模型,解决多模态语音生成问题,能够从文本、视频和音频合成高质量语音,提高可懂性和同步性。
本研究通过插入不流畅性来提升大型语言模型生成语音的自然感,尽管可能略微影响可懂性,但显著增强了用户对语音自然性的印象。
本研究提出了一种新颖的ProsodyFM模型,旨在改善语音合成在短语和音调方面的不足。该模型通过短语断点和终端音调编码器,提高了语音的可懂性和对复杂句子的适应能力。
我们提出了一种名为TLDNN的混合深度框架,将Transformer和LSTM相结合,通过自注意机制建模信号序列的全局相关性以增强时间依赖性的捕捉,并采用数据增强策略来提高模型对调制相关特征的鲁棒性。实验结果表明,该方法在广泛使用的数据集上取得了最先进的性能并具有显著优势。
本文比较了两个语音语料库,研究了格状句对于提高自然语音可懂性的效果,并发现噪音水平的增加使得格状句和自然句都表现出类似的变化,但在 alpha 比率的增加方面,格状句呈现出更大的增长。通过主观可懂性评估发现,EMALG 上训练的 StarGAN 模型在提高可懂性方面始终优于 LCT 上训练的模型,可能归因于 EMALG 中从正常语音到 Lombard 语音的 alpha 比率增长更大。
完成下面两步后,将自动完成登录并继续当前操作。