Scaling Rich Style-Prompted Text-to-Speech Datasets

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了Paralinguistic Speech Captions(ParaSpeechCaps)数据集,解决了大规模语音数据集风格标签不足的问题。通过结合多种文本与语音嵌入技术,自动扩展了59种风格标签的数据集。微调TTS模型后,语音风格一致性和自然度显著提高,展示了研究的潜在影响。

🎯

关键要点

  • 本研究提出了Paralinguistic Speech Captions(ParaSpeechCaps)数据集,旨在解决大规模语音数据集风格标签不足的问题。
  • 该数据集自动扩展了59种风格标签,结合了多种文本与语音嵌入技术。
  • 通过微调TTS模型,研究发现语音风格的一致性和自然度显著提高。
  • 研究展示了其潜在影响,并为未来的工作奠定了基础。
➡️

继续阅读