xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

🎯

关键要点

  • xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。
  • Grok STT API 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。
  • STT API 提供词级时间戳、说话人分割和多声道支持,支持 12 种音频格式。
  • Grok TTS API 支持 20 种语言,提供五种声音选择,定价为每百万字符 4.20 美元。
  • TTS API 允许开发者使用内联和包裹式语音标签来控制语音表达。

延伸问答

xAI的Grok STT API支持哪些功能?

Grok STT API支持25种语言的实时和批量转录,提供词级时间戳、说话人分割和多声道支持,支持12种音频格式。

Grok TTS API的定价是多少?

Grok TTS API的定价为每百万字符4.20美元。

Grok STT API的错误率如何?

Grok STT API在电话通话实体识别中的错误率为5.0%,优于其他竞争对手。

Grok TTS API支持哪些语言和声音选择?

Grok TTS API支持20种语言,并提供五种声音选择:Ara、Eve、Leo、Rex和Sal。

Grok STT API的批量和流式转录有什么区别?

批量模式用于处理预录制的音频文件,而流式模式可实时转录音频采集。

Grok TTS API如何控制语音表达?

开发者可以使用内联和包裹式语音标签来控制语音表达,如[laugh]、[sigh]和<whisper>文本</whisper>。

➡️

继续阅读