本文介绍了一个新的文本转语音数据集,包含70万个风格提示和1800多个风格标签,显著提升语音表现力并精确控制生成特性。
本研究提出了Paralinguistic Speech Captions(ParaSpeechCaps)数据集,解决了大规模语音数据集风格标签不足的问题。通过结合多种文本与语音嵌入技术,自动扩展了59种风格标签的数据集。微调TTS模型后,语音风格一致性和自然度显著提高,展示了研究的潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。