首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

巨人网络AI Lab团队开发了支持多种普通话方言的语音合成大模型Bailing-TTS。通过构建涵盖20种方言的数据集,训练出了接近真人水平的生成质量和自然度。该技术已应用于游戏NPC配音和视频创作等领域,有望在方言文化保护和游戏AI NPC方言交互等领域发挥更大潜力。巨人网络AI Lab将继续推动该技术的创新和应用。

🎯

关键要点

  • 巨人网络AI Lab开发了支持多种普通话方言的语音合成大模型Bailing-TTS。
  • Bailing-TTS通过构建涵盖20种方言的数据集,训练出接近真人水平的生成质量和自然度。
  • 该技术已应用于游戏NPC配音和视频创作等领域。
  • Bailing-TTS解决了方言语料库稀缺和高质量标注数据匮乏的问题。
  • 技术创新包括统一的方言Token规范、精细化Token对齐技术、层次混合专家结构和层次强化学习增强策略。
  • Bailing-TTS在普通话和多种方言的生成质量和自然度上已接近真人水平。
  • 未来该技术将在方言文化保护和游戏AI NPC方言交互等领域展现更大潜力。
  • 巨人网络AI Lab将继续推动该技术的创新和应用。
➡️

继续阅读