机器之心 ·

国产最强语音大模型诞生，MaskGCT宣布开源，声音效果媲美人类

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

港中大（深圳）与趣丸科技推出了新一代声音克隆TTS模型MaskGCT，该模型基于10万小时的多语言数据训练，具备超自然的语音克隆和风格迁移能力，采用两阶段结构，无需文本与语音对齐，表现优于现有TTS系统，适用于短剧出海等多种场景。

🎯

🔎

MaskGCT模型采用了全新的两阶段结构，消除了对文本与语音的显式对齐需求。这一创新使得模型在语音合成的自然度和稳定性上表现优异，尤其适合多语言环境下的应用。与传统TTS系统相比，MaskGCT在语音质量和可理解性方面具有明显优势，适合用于短剧、智能助手等多种场景。

MaskGCT的推出为短剧出海、智能助手和有声读物等领域提供了新的可能性。根据《2024年短剧出海白皮书》，短剧出海市场规模巨大，MaskGCT的高效翻译和语音合成能力将大幅降低制作成本，推动中国文化在全球的传播，具有广阔的市场前景。

尽管MaskGCT在多个基准测试中表现出色，但在高质量语音的重建过程中，仍需关注信息损失的问题。未来，如何进一步优化语音语义表示和声学标记的生成，将是提升模型性能的关键。此外，模型的可扩展性在语音翻译和情感控制等任务中的应用也值得关注。

❓

MaskGCT模型具备超自然的语音克隆和风格迁移能力，采用两阶段结构，无需文本与语音对齐，表现优于现有TTS系统。

MaskGCT基于10万小时的多语言数据进行训练，使用语音自监督学习模型提取语义标记，并通过掩码预测学习范式进行训练。

MaskGCT适用于短剧出海、智能助手、有声读物和辅助教育等多种场景。

MaskGCT在多个TTS基准数据集上达到了SOTA效果，甚至在某些指标上超过了人类水平。

MaskGCT主要由语音语义表示编解码器、语音声学编解码器、文本到语义模型和语义到声学模型组成。

“趣丸千音”平台可以快速翻译视频成多语种版本，并实现音话同步、口型同步和去字幕等功能。

🏷️