HyperAI超神经 ·

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

小米人工智能实验室推出了OmniVoice，这是一款支持600多种语言的零样本文本转语音（TTS）模型。该模型采用单阶段框架，直接将文本映射为声学标记，基于58.1万小时的开源数据训练，广泛覆盖语言，并提升了对低资源语言的支持。

🎯

🔎

OmniVoice 采用单阶段离散非自回归（NAR）框架，简化了传统的两阶段架构。这种设计不仅提高了处理效率，还能更快速地将文本转换为声学标记，适应多种语言的需求，尤其是低资源语言。这一技术突破使得语音合成的质量和速度都有了显著提升。

OmniVoice 的推出标志着对低资源语言的重视，传统 TTS 模型往往忽视这些语言。通过使用 58.1 万小时的开源数据进行训练，OmniVoice 能够为更多用户提供语音合成服务，促进语言的多样性和文化的传播。

OmniVoice 的广泛语言支持使其在教育、翻译、娱乐等多个领域具有重要应用潜力。尤其是在全球化日益加深的背景下，能够为不同语言的用户提供无障碍的交流工具，促进跨文化理解与合作。

❓

OmniVoice 是小米人工智能实验室推出的一款支持超过600种语言的零样本文本转语音（TTS）模型。

OmniVoice 通过基于58.1万小时的开源数据训练，提升了对低资源语言的支持。

OmniVoice 采用单阶段离散非自回归（NAR）框架，直接将文本映射为声学标记。

OmniVoice 可用于语音克隆、语音设计和自动语音等多种应用场景。

OmniVoice 基于58.1万小时的纯开源数据进行训练。

OmniVoice 是为了打破现有零样本文本转语音模型只支持少数语言的局限而推出的。

🏷️