实时互动网 ·

xAI推出独立的Grok语音转文本和文本转语音API，目标用户为企业语音开发人员

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API：语音转文本（STT）和文本转语音（TTS）。STT 支持 25 种语言，提供实时和批量转录，错误率为 5.0%。TTS 支持 20 种语言，提供多种声音选择，定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

🎯

🔎

xAI的Grok语音API进入了一个竞争激烈的市场，主要对手包括ElevenLabs、Deepgram和AssemblyAI。尽管Grok在准确性上表现优异，但开发者在选择API时还需考虑其他因素，如价格、功能和客户支持。

Grok STT API的低错误率（5.0%）使其在医疗、法律和金融等领域的应用前景广阔。开发者可以利用其实时转录和说话人分割功能，提升会议记录和客户服务的效率。

Grok TTS API通过内联和包裹式语音标签提供更自然的语音合成，解决了传统TTS系统情感表达不足的问题。这对于需要生动语音输出的应用，如语音助手和播客生成，具有重要意义。

❓

Grok STT API支持25种语言的实时和批量转录，提供词级时间戳、说话人分割和多声道支持，支持12种音频格式。

Grok TTS API的定价为每百万字符4.20美元。

Grok STT API在电话通话实体识别中的错误率为5.0%，优于其他竞争对手。

Grok TTS API支持20种语言，并提供五种声音选择：Ara、Eve、Leo、Rex和Sal。

批量模式用于处理预录制的音频文件，而流式模式可实时转录音频采集。

开发者可以使用内联和包裹式语音标签来控制语音表达，如[laugh]、[sigh]和<whisper>文本</whisper>。

🏷️