Voxtral TTS开源文本转语音模型

💡 原文英文,约1800词,阅读约需7分钟。
📝

内容提要

Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。

🎯

关键要点

  • Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言。

  • 该模型能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。

  • 用户可以通过Mistral API或自托管方式使用Voxtral TTS,提供灵活的商业和非商业使用选项。

  • Voxtral TTS的模型参数为40亿,能够生成自然的语音,性能与领先的专有系统相当或更优。

  • 该模型支持多种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

  • Voxtral TTS的零样本语音克隆能力只需三秒的参考音频,能够分析说话者的独特特征。

  • 在与ElevenLabs的比较中,Voxtral TTS在盲评中获得68.4%的胜率,尤其在西班牙语和印地语中表现突出。

  • Voxtral TTS的低延迟性能使其适合用于对话AI代理、实时客户支持系统和语音启用的物联网设备。

  • 模型的开放权重允许在CC BY-NC 4.0许可下进行非商业使用,商业使用需单独许可或使用Mistral的付费API。

延伸问答

Voxtral TTS支持哪些语言?

Voxtral TTS支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

Voxtral TTS的语音克隆能力如何?

Voxtral TTS能够在三秒的参考音频基础上克隆声音,分析说话者的独特特征。

如何使用Voxtral TTS进行商业用途?

商业用途需要单独许可或使用Mistral的付费API,每千字符收费0.016美元。

Voxtral TTS的延迟性能如何?

Voxtral TTS具有70毫秒的模型延迟和约100毫秒的首次音频时间,适合实时对话应用。

Voxtral TTS与其他语音合成模型相比如何?

在盲评中,Voxtral TTS在与ElevenLabs的比较中获得68.4%的胜率,尤其在西班牙语和印地语中表现突出。

如何开始使用Voxtral TTS?

用户可以通过Mistral API进行快速测试,或下载模型权重进行自托管,后者适合非商业用途。

➡️

继续阅读