巴哈萨和谐:一种全面的巴哈萨文本到语音合成数据集与EnGen-TTS的离散编码模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了EnGen-TTS模型,提升了巴哈萨语语音合成的质量和多样性。利用55小时和52000个音频数据集,展示了其在声音捕捉和模型训练上的优势。EnGen-TTS的平均意见得分为4.45,显示了在巴哈萨TTS技术上的显著进步。
🎯
关键要点
- 本研究提出了EnGen-TTS模型,旨在提升巴哈萨语语音合成的质量和多样性。
- 使用了55小时和52000个音频数据集,展示了在声音捕捉和模型训练上的优势。
- EnGen-TTS的平均意见得分为4.45,显示了在巴哈萨TTS技术上的显著进步。
- 该模型具有潜在的广泛应用前景。
➡️