OpenAI推出低延迟语音交互的Realtime API公测版

OpenAI推出低延迟语音交互的Realtime API公测版

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

OpenAI推出了Realtime API公测版,支持低延迟、多模态语音交互,简化对话应用开发。Chat Completions API新增音频功能,适合不需低延迟的场景。Realtime API通过WebSocket支持实时对话,但语音选项有限。音频输入每分钟$0.06,输出$0.24,长时间使用成本较高。

🎯

关键要点

  • OpenAI推出了Realtime API公测版,支持低延迟、多模态语音交互,简化对话应用开发。
  • Chat Completions API新增音频输入/输出功能,适合不需低延迟的场景。
  • Realtime API通过WebSocket支持实时自然语音交互,使用六种预设语音,简化开发流程。
  • Realtime API将语音识别和合成整合为单个API调用,提高对话流畅性。
  • Realtime API支持持续消息交换和功能调用,增强语音助手的个性化响应能力。
  • 目前可用的语音选项有限,用户反馈与ChatGPT的高级语音模式相似,响应可能会被截断。
  • Realtime API对所有付费开发者开放公测,Chat Completions API的音频功能将在未来几周发布。
  • Realtime API的定价包括文本和音频令牌,音频输入每分钟约$0.06,输出$0.24。
  • 开发者对长时间交互的成本表示担忧,因模型需重新处理先前内容,费用可能迅速累积。
  • 开发者可通过官方文档和参考客户端开始探索Realtime API。

延伸问答

Realtime API的主要功能是什么?

Realtime API支持低延迟、多模态语音交互,简化对话应用开发。

Realtime API的定价是怎样的?

音频输入每分钟约$0.06,输出$0.24,长时间使用成本较高。

Realtime API如何提高对话流畅性?

它将语音识别和合成整合为单个API调用,简化了开发流程。

开发者如何开始使用Realtime API?

开发者可以通过官方文档和参考客户端开始探索Realtime API。

Realtime API的语音选项有哪些?

目前可用的语音选项有限,包括合金、回声和闪烁等六种预设语音。

Chat Completions API与Realtime API有什么区别?

Chat Completions API适合不需低延迟的场景,而Realtime API支持实时对话。

➡️

继续阅读