关于基于提示条件的语音合成的语言模型的实证研究
原文中文,约300字,阅读约需1分钟。发表于: 。研究报告通过对自动回归 (AR) 和非自动回归 (NAR) 语音语言模型的实证研究,为提示设计和内容语义单元提供了深入洞察。分析表明,异构和非平稳的提示对音频质量有害,与之前发现提醒较长始终会产生更好的合成的结论形成对比。此外,我们发现除了提示外,合成音频的说话者风格还受到内容的影响。我们进一步展示了语义单元携带丰富的声学信息,如音高、节奏、音量和语音强调,这些信息可能从内容泄露到合成音频中。
研究发现,机器生成的提示比人工制作的提示更能激发语言模型的响应。不同尺寸的模型对连续和离散的机器生成提示和人工生成的自然语言提示有不同的响应模式。只有自然语言提示才能真正激活语言电路。