HyperAI超神经 ·

在线教程丨支持600+语言，小米开源OmniVoice：仅需3-10秒参考音频实现语音克隆

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

OmniVoice是一款新发布的多语言文本转语音（TTS）模型，支持超过600种语言，包括多种方言和口音。它采用非自回归架构，简化了语音生成流程，提高了自然度和可懂度。该模型具备零样本语音克隆能力，适用于AI配音和跨语言内容生成，展现出广泛的应用潜力。

🎯

🔎

OmniVoice采用非自回归架构，简化了传统的语音生成流程。这种新架构不仅提高了语音的自然度和可懂度，还解决了传统模型在复杂生成链路中的性能瓶颈，使得多语言生成更加高效。

OmniVoice支持超过600种语言和多种方言，涵盖了主流语言及其变体。这种广泛的语言支持使其在全球化语音交互和跨语言内容生成中具有显著的应用潜力，尤其适合多元文化环境下的需求。

OmniVoice的零样本语音克隆能力使得用户只需提供几秒的参考音频即可生成相应的语音。这一特性在AI配音和数字人等领域具有重要的实用价值，能够大幅降低内容生成的时间和成本。

❓

OmniVoice是一款支持超过600种语言的多语言文本转语音（TTS）模型，具备零样本语音克隆能力。

OmniVoice采用非自回归架构，简化了语音生成流程，从而提高了自然度和可懂度。

OmniVoice支持中文、英文、日文、韩文等主流语言，以及河南话、四川话、东北话等中文方言和多种英语变体。

OmniVoice的零样本语音克隆能力适用于AI配音、数字人、跨语言内容生成和全球化语音交互等场景。

用户可以通过HyperAI官网的教程页面，选择OmniVoice教程并克隆至自己的容器中进行在线使用。

OmniVoice引入全码本随机掩码训练策略，并基于预训练大语言模型进行初始化，从而提升训练效率和语音生成质量。

🏷️