💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
港中大(深圳)与趣丸科技推出了新一代声音克隆TTS模型MaskGCT,该模型基于10万小时的多语言数据训练,具备超自然的语音克隆和风格迁移能力,采用两阶段结构,无需文本与语音对齐,表现优于现有TTS系统,适用于短剧出海等多种场景。
🎯
关键要点
- 港中大(深圳)与趣丸科技推出新一代声音克隆TTS模型MaskGCT。
- MaskGCT基于10万小时多语言数据训练,具备超自然的语音克隆和风格迁移能力。
- 该模型采用两阶段结构,无需文本与语音对齐,表现优于现有TTS系统。
- MaskGCT的主要组件包括语音语义表示编解码器、语音声学编解码器、文本到语义模型和语义到声学模型。
- MaskGCT在多个TTS基准数据集上达到了SOTA效果,甚至超过了人类水平。
- 该模型适用于短剧出海、智能助手、有声读物、辅助教育等多种场景。
- 趣丸科技推出的多语种速译智能视听平台“趣丸千音”加速了短剧出海的应用。
- MaskGCT在语音质量、相似度和可理解性方面优于最先进的TTS系统,具备良好的可扩展性。
❓
延伸问答
MaskGCT模型的主要特点是什么?
MaskGCT模型具备超自然的语音克隆和风格迁移能力,采用两阶段结构,无需文本与语音对齐,表现优于现有TTS系统。
MaskGCT是如何训练的?
MaskGCT基于10万小时的多语言数据进行训练,使用语音自监督学习模型提取语义标记,并通过掩码预测学习范式进行训练。
MaskGCT适用于哪些应用场景?
MaskGCT适用于短剧出海、智能助手、有声读物和辅助教育等多种场景。
MaskGCT在语音合成方面的表现如何?
MaskGCT在多个TTS基准数据集上达到了SOTA效果,甚至在某些指标上超过了人类水平。
MaskGCT的结构包含哪些主要组件?
MaskGCT主要由语音语义表示编解码器、语音声学编解码器、文本到语义模型和语义到声学模型组成。
趣丸科技的“趣丸千音”平台有什么功能?
“趣丸千音”平台可以快速翻译视频成多语种版本,并实现音话同步、口型同步和去字幕等功能。
➡️