巴哈萨和谐:一种全面的巴哈萨文本到语音合成数据集与EnGen-TTS的离散编码模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了EnGen-TTS模型,提升了巴哈萨语语音合成的质量和多样性。利用55小时和52000个音频数据集,展示了其在声音捕捉和模型训练上的优势。EnGen-TTS的平均意见得分为4.45,显示了在巴哈萨TTS技术上的显著进步。

🎯

关键要点

  • 本研究提出了EnGen-TTS模型,旨在提升巴哈萨语语音合成的质量和多样性。
  • 使用了55小时和52000个音频数据集,展示了在声音捕捉和模型训练上的优势。
  • EnGen-TTS的平均意见得分为4.45,显示了在巴哈萨TTS技术上的显著进步。
  • 该模型具有潜在的广泛应用前景。
➡️

继续阅读