零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

📝

内容提要

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

🎯

关键要点

  • 小米人工智能实验室推出了OmniVoice,支持超过600种语言的零样本文本转语音(TTS)模型。

  • OmniVoice采用单阶段离散非自回归(NAR)框架,直接将文本映射为声学标记。

  • 该模型基于58.1万小时的开源数据训练,实现了广泛的语言覆盖,特别是对低资源语言的支持。

延伸问答

OmniVoice 是什么?

OmniVoice 是小米人工智能实验室推出的一款支持超过600种语言的零样本文本转语音(TTS)模型。

OmniVoice 如何处理低资源语言?

OmniVoice 通过基于58.1万小时的开源数据训练,提升了对低资源语言的支持。

OmniVoice 的架构特点是什么?

OmniVoice 采用单阶段离散非自回归(NAR)框架,直接将文本映射为声学标记。

OmniVoice 的应用场景有哪些?

OmniVoice 可用于语音克隆、语音设计和自动语音等多种应用场景。

OmniVoice 的训练数据来源是什么?

OmniVoice 基于58.1万小时的纯开源数据进行训练。

OmniVoice 的发布背景是什么?

OmniVoice 是为了打破现有零样本文本转语音模型只支持少数语言的局限而推出的。

➡️

继续阅读