Scaling Rich Style-Prompted Text-to-Speech Datasets
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了Paralinguistic Speech Captions(ParaSpeechCaps)数据集,解决了大规模语音数据集风格标签不足的问题。通过结合多种文本与语音嵌入技术,自动扩展了59种风格标签的数据集。微调TTS模型后,语音风格一致性和自然度显著提高,展示了研究的潜在影响。
🎯
关键要点
- 本研究提出了Paralinguistic Speech Captions(ParaSpeechCaps)数据集,旨在解决大规模语音数据集风格标签不足的问题。
- 该数据集自动扩展了59种风格标签,结合了多种文本与语音嵌入技术。
- 通过微调TTS模型,研究发现语音风格的一致性和自然度显著提高。
- 研究展示了其潜在影响,并为未来的工作奠定了基础。
➡️