Apple Machine Learning Research ·

一种变分框架，用于提高生成语音语言模型的自然性

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

大型语言模型在文本处理中的成功促使其应用于语音建模，但现有语音标记主要关注语言特征，忽视韵律信息，导致生成语音自然性不足。为此，我们提出一种端到端的变分方法，自动学习连续语音属性，增强语义标记，避免手动特征提取。

🎯

🔎

尽管大型语言模型在文本处理上取得了显著成功，但在语音建模中仍面临挑战。现有的语音标记方法主要关注语言特征，忽视了韵律信息，导致生成的语音缺乏自然性。这一问题的存在提醒我们，在开发语音模型时，必须综合考虑语言和韵律特征，以提高生成语音的质量。

文章提出的端到端变分方法能够自动学习连续语音属性，避免了手动特征提取的复杂性。这一创新不仅提高了语音生成的自然性，还简化了模型开发过程。对于研究人员和开发者而言，采用这种方法可以更高效地构建更具自然感的语音模型，推动语音技术的发展。

根据人类评估者的反馈，新的变分方法生成的语音更受欢迎。这表明，在语音生成模型的开发中，考虑用户体验和人类反馈是至关重要的。未来的研究可以进一步探索如何将人类评估融入模型训练，以提升生成语音的质量和自然性。

❓

大型语言模型在文本处理中的成功促使其被应用于语音建模，旨在提高生成语音的自然性。

现有语音标记主要关注语言特征，忽视韵律信息，导致生成语音的自然性不足。

现有方法通过添加音高特征来改善自然性，但音高无法完全代表多种副语言属性。

提出的端到端变分方法自动学习连续语音属性，增强语义标记，消除了手动特征提取的需要。

该方法根据人类评估者的反馈，生成更受欢迎的语音延续，提高了语音生成的质量。

手动特征提取增加了复杂性，选择合适的特征需要仔细的工程设计，影响建模效率。

🏷️