💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
OpenAI推出了Realtime API公测版,支持低延迟、多模态语音交互,简化对话应用开发。Chat Completions API新增音频功能,适合不需低延迟的场景。Realtime API通过WebSocket支持实时对话,但语音选项有限。音频输入每分钟$0.06,输出$0.24,长时间使用成本较高。
🎯
关键要点
- OpenAI推出了Realtime API公测版,支持低延迟、多模态语音交互,简化对话应用开发。
- Chat Completions API新增音频输入/输出功能,适合不需低延迟的场景。
- Realtime API通过WebSocket支持实时自然语音交互,使用六种预设语音,简化开发流程。
- Realtime API将语音识别和合成整合为单个API调用,提高对话流畅性。
- Realtime API支持持续消息交换和功能调用,增强语音助手的个性化响应能力。
- 目前可用的语音选项有限,用户反馈与ChatGPT的高级语音模式相似,响应可能会被截断。
- Realtime API对所有付费开发者开放公测,Chat Completions API的音频功能将在未来几周发布。
- Realtime API的定价包括文本和音频令牌,音频输入每分钟约$0.06,输出$0.24。
- 开发者对长时间交互的成本表示担忧,因模型需重新处理先前内容,费用可能迅速累积。
- 开发者可通过官方文档和参考客户端开始探索Realtime API。
❓
延伸问答
Realtime API的主要功能是什么?
Realtime API支持低延迟、多模态语音交互,简化对话应用开发。
Realtime API的定价是怎样的?
音频输入每分钟约$0.06,输出$0.24,长时间使用成本较高。
Realtime API如何提高对话流畅性?
它将语音识别和合成整合为单个API调用,简化了开发流程。
开发者如何开始使用Realtime API?
开发者可以通过官方文档和参考客户端开始探索Realtime API。
Realtime API的语音选项有哪些?
目前可用的语音选项有限,包括合金、回声和闪烁等六种预设语音。
Chat Completions API与Realtime API有什么区别?
Chat Completions API适合不需低延迟的场景,而Realtime API支持实时对话。
➡️