KDnuggets ·

Voxtral TTS开源文本转语音模型

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

Voxtral TTS是Mistral AI推出的开源文本转语音模型，支持九种语言，能够在三秒音频基础上克隆声音，具有70毫秒的低延迟和9.7倍的实时因子，适合实时对话应用。用户可通过Mistral API或自托管方式使用，提供灵活的商业和非商业使用选项。

🎯

🔎

Voxtral TTS的开源特性使开发者能够在自己的硬件上运行模型，避免了依赖昂贵的云服务。这种灵活性不仅降低了成本，还增强了数据隐私和安全性。用户可以根据需求自定义模型，适应不同的应用场景。

Voxtral TTS的70毫秒低延迟性能使其非常适合实时对话应用，如客户支持和语音助手。与传统的语音合成系统相比，这种快速响应能力能够显著提升用户体验，减少交流中的尴尬时刻。

Voxtral TTS支持九种语言的语音合成，尤其在西班牙语和印地语中表现突出。这使得它在全球化的客户支持和内容本地化方面具有明显优势，能够为不同语言的用户提供一致的语音体验。

❓

Voxtral TTS支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

Voxtral TTS能够在三秒的参考音频基础上克隆声音，分析说话者的独特特征。

商业用途需要单独许可或使用Mistral的付费API，每千字符收费0.016美元。

Voxtral TTS具有70毫秒的模型延迟和约100毫秒的首次音频时间，适合实时对话应用。

在盲评中，Voxtral TTS在与ElevenLabs的比较中获得68.4%的胜率，尤其在西班牙语和印地语中表现突出。

用户可以通过Mistral API进行快速测试，或下载模型权重进行自托管，后者适合非商业用途。

🏷️