国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

港中大(深圳)与趣丸科技推出了新一代声音克隆TTS模型MaskGCT,该模型基于10万小时的多语言数据训练,具备超自然的语音克隆和风格迁移能力,采用两阶段结构,无需文本与语音对齐,表现优于现有TTS系统,适用于短剧出海等多种场景。

🎯

关键要点

  • 港中大(深圳)与趣丸科技推出新一代声音克隆TTS模型MaskGCT。
  • MaskGCT基于10万小时多语言数据训练,具备超自然的语音克隆和风格迁移能力。
  • 该模型采用两阶段结构,无需文本与语音对齐,表现优于现有TTS系统。
  • MaskGCT的主要组件包括语音语义表示编解码器、语音声学编解码器、文本到语义模型和语义到声学模型。
  • MaskGCT在多个TTS基准数据集上达到了SOTA效果,甚至超过了人类水平。
  • 该模型适用于短剧出海、智能助手、有声读物、辅助教育等多种场景。
  • 趣丸科技推出的多语种速译智能视听平台“趣丸千音”加速了短剧出海的应用。
  • MaskGCT在语音质量、相似度和可理解性方面优于最先进的TTS系统,具备良好的可扩展性。
➡️

继续阅读