💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。
🎯
关键要点
- xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。
- Grok STT API 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。
- STT API 提供词级时间戳、说话人分割和多声道支持,支持 12 种音频格式。
- Grok TTS API 支持 20 种语言,提供五种声音选择,定价为每百万字符 4.20 美元。
- TTS API 允许开发者使用内联和包裹式语音标签来控制语音表达。
❓
延伸问答
xAI的Grok STT API支持哪些功能?
Grok STT API支持25种语言的实时和批量转录,提供词级时间戳、说话人分割和多声道支持,支持12种音频格式。
Grok TTS API的定价是多少?
Grok TTS API的定价为每百万字符4.20美元。
Grok STT API的错误率如何?
Grok STT API在电话通话实体识别中的错误率为5.0%,优于其他竞争对手。
Grok TTS API支持哪些语言和声音选择?
Grok TTS API支持20种语言,并提供五种声音选择:Ara、Eve、Leo、Rex和Sal。
Grok STT API的批量和流式转录有什么区别?
批量模式用于处理预录制的音频文件,而流式模式可实时转录音频采集。
Grok TTS API如何控制语音表达?
开发者可以使用内联和包裹式语音标签来控制语音表达,如[laugh]、[sigh]和<whisper>文本</whisper>。
➡️