语言模型基础上的文本转语音中的情感维度控制:涵盖广泛的人类情感
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文研究了通过微调深度学习的文字转语音模型,利用少量数据合成情感语音。提出了基于文本的情感风格控制和跨说话人情感转移等方法,展示了在情感表达、自然度和可控性方面的优势。同时,开发了大规模语音情感数据集TextrolSpeech和新架构Salle,提升了可控TTS性能。
🎯
关键要点
-
通过微调预训练的深度学习文字转语音模型,使用少量数据合成情感语音。
-
提出基于文本的情感风格控制接口和跨说话人风格转移方法,提升表达性语音合成质量。
-
开发了TextrolSpeech大规模语音情感数据集,包含236,220对样式提示和对应语音样本。
-
提出新架构Salle,将文本可控TTS作为语言模型任务处理,提升可控TTS性能。
-
设计了两阶段框架TEMOTTS,能够在没有情感标签和文本提示的情况下进行训练和推理。
-
提出EmoSphere-TTS,通过球形情感向量控制合成语音的情感风格和强度。
❓
延伸问答
如何通过微调模型合成情感语音?
通过微调预训练的深度学习文字转语音模型,利用少量情感数据来适应模型生成情感TTS。
TextrolSpeech数据集的特点是什么?
TextrolSpeech是一个大规模语音情感数据集,包含236,220对样式提示和对应语音样本,注释了丰富的文本属性。
什么是EmoSphere-TTS?
EmoSphere-TTS是一个通过球形情感向量控制合成语音情感风格和强度的系统,能够高质量地生成情感语音。
TEMOTTS框架的创新之处在哪里?
TEMOTTS框架能够在没有情感标签和文本提示的情况下进行训练和推理,提高了情感准确性和自然度。
跨说话人情感转移是如何实现的?
通过潜在风格空间中的矢量算术方法,利用少量标记样本生成情感语音,同时保留说话人的身份。
新架构Salle的作用是什么?
Salle将文本可控TTS作为语言模型任务处理,利用音频编解码代码替代传统的mel频谱图,提升了可控TTS性能。
➡️