本文介绍了一种名为“原则性粗粒度接受”(PCG)的新方法,旨在加速语音生成中的推测解码。PCG通过在声学相似性组(ASGs)层面验证提议,提高了接受率和吞吐量,同时保持了语音的可懂性和说话者相似性,为加速语音令牌生成提供了有效解决方案。
本研究提出AlignDiT模型,解决多模态语音生成问题,能够从文本、视频和音频合成高质量语音,提高可懂性和同步性。
本研究提出了一种新颖的ProsodyFM模型,旨在改善语音合成在短语和音调方面的不足。该模型通过短语断点和终端音调编码器,提高了语音的可懂性和对复杂句子的适应能力。
本研究提出了一种低帧率语音编解码器(LFSC),旨在提高训练和推理速度。LFSC通过有限标量量化和对抗训练,以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩,推理速度提高约三倍,同时保持音质和可懂性。
本文提出了一个评估框架,用于分析发音障碍语音合成的清晰度和可懂性。研究表明,该框架有效支持发音障碍语音转换系统的开发,并通过自动化技术评估语言流畅度和声音病理学,提出提高声音障碍识别准确性的新方法,同时创建了针对自闭症儿童的语音语料库,推动自动评估系统的发展。
我们提出了一种名为TLDNN的混合深度框架,将Transformer和LSTM相结合,通过自注意机制建模信号序列的全局相关性以增强时间依赖性的捕捉,并采用数据增强策略来提高模型对调制相关特征的鲁棒性。实验结果表明,该方法在广泛使用的数据集上取得了最先进的性能并具有显著优势。
本文比较了两个语音语料库,研究了格状句对于提高自然语音可懂性的效果,并发现噪音水平的增加使得格状句和自然句都表现出类似的变化,但在 alpha 比率的增加方面,格状句呈现出更大的增长。通过主观可懂性评估发现,EMALG 上训练的 StarGAN 模型在提高可懂性方面始终优于 LCT 上训练的模型,可能归因于 EMALG 中从正常语音到 Lombard 语音的 alpha 比率增长更大。
完成下面两步后,将自动完成登录并继续当前操作。