Voxtral TTS开源文本转语音模型
内容提要
Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。
关键要点
-
Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言。
-
该模型能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。
-
用户可以通过Mistral API或自托管方式使用Voxtral TTS,提供灵活的商业和非商业使用选项。
-
Voxtral TTS的模型参数为40亿,能够生成自然的语音,性能与领先的专有系统相当或更优。
-
该模型支持多种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
-
Voxtral TTS的零样本语音克隆能力只需三秒的参考音频,能够分析说话者的独特特征。
-
在与ElevenLabs的比较中,Voxtral TTS在盲评中获得68.4%的胜率,尤其在西班牙语和印地语中表现突出。
-
Voxtral TTS的低延迟性能使其适合用于对话AI代理、实时客户支持系统和语音启用的物联网设备。
-
模型的开放权重允许在CC BY-NC 4.0许可下进行非商业使用,商业使用需单独许可或使用Mistral的付费API。
延伸问答
Voxtral TTS支持哪些语言?
Voxtral TTS支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
Voxtral TTS的语音克隆能力如何?
Voxtral TTS能够在三秒的参考音频基础上克隆声音,分析说话者的独特特征。
如何使用Voxtral TTS进行商业用途?
商业用途需要单独许可或使用Mistral的付费API,每千字符收费0.016美元。
Voxtral TTS的延迟性能如何?
Voxtral TTS具有70毫秒的模型延迟和约100毫秒的首次音频时间,适合实时对话应用。
Voxtral TTS与其他语音合成模型相比如何?
在盲评中,Voxtral TTS在与ElevenLabs的比较中获得68.4%的胜率,尤其在西班牙语和印地语中表现突出。
如何开始使用Voxtral TTS?
用户可以通过Mistral API进行快速测试,或下载模型权重进行自托管,后者适合非商业用途。