小红花·文摘

Voxtral TTS是Mistral AI推出的开源文本转语音模型，支持九种语言，能够在三秒音频基础上克隆声音，具有70毫秒的低延迟和9.7倍的实时因子，适合实时对话应用。用户可通过Mistral API或自托管方式使用，提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets ·

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；多项全能！Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经 ·

低延迟、多语种、轻量化，Voxtral Realtime 打破 ASR 全场景桎梏；可穿戴设备设计福音！Antenna Performance 构建天线性能与故障数据集

HyperAI超神经 ·

Mistral AI 于 2 月 4 日发布了 Voxtral Transcribe 2 系列语音转文字模型，包括面向批量处理的 Voxtral Mini Transcribe V2 和实时转录的 Voxtral Realtime。Voxtral Realtime 具有低于 200 ms 的延迟，支持 13 种语言。定价方面，Mini Transcribe V2 每分钟 0.003 美元，Realtime 每分钟 0.006 美元。