语言模型基础上的文本转语音中的情感维度控制:涵盖广泛的人类情感

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本文研究了通过微调深度学习的文字转语音模型,利用少量数据合成情感语音。提出了基于文本的情感风格控制和跨说话人情感转移等方法,展示了在情感表达、自然度和可控性方面的优势。同时,开发了大规模语音情感数据集TextrolSpeech和新架构Salle,提升了可控TTS性能。

🎯

关键要点

  • 通过微调预训练的深度学习文字转语音模型,使用少量数据合成情感语音。

  • 提出基于文本的情感风格控制接口和跨说话人风格转移方法,提升表达性语音合成质量。

  • 开发了TextrolSpeech大规模语音情感数据集,包含236,220对样式提示和对应语音样本。

  • 提出新架构Salle,将文本可控TTS作为语言模型任务处理,提升可控TTS性能。

  • 设计了两阶段框架TEMOTTS,能够在没有情感标签和文本提示的情况下进行训练和推理。

  • 提出EmoSphere-TTS,通过球形情感向量控制合成语音的情感风格和强度。

延伸问答

如何通过微调模型合成情感语音?

通过微调预训练的深度学习文字转语音模型,利用少量情感数据来适应模型生成情感TTS。

TextrolSpeech数据集的特点是什么?

TextrolSpeech是一个大规模语音情感数据集,包含236,220对样式提示和对应语音样本,注释了丰富的文本属性。

什么是EmoSphere-TTS?

EmoSphere-TTS是一个通过球形情感向量控制合成语音情感风格和强度的系统,能够高质量地生成情感语音。

TEMOTTS框架的创新之处在哪里?

TEMOTTS框架能够在没有情感标签和文本提示的情况下进行训练和推理,提高了情感准确性和自然度。

跨说话人情感转移是如何实现的?

通过潜在风格空间中的矢量算术方法,利用少量标记样本生成情感语音,同时保留说话人的身份。

新架构Salle的作用是什么?

Salle将文本可控TTS作为语言模型任务处理,利用音频编解码代码替代传统的mel频谱图,提升了可控TTS性能。

➡️

继续阅读