InfoQ ·

OpenAI推出低延迟语音交互的Realtime API公测版

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

OpenAI推出了Realtime API公测版，支持低延迟、多模态语音交互，简化对话应用开发。Chat Completions API新增音频功能，适合不需低延迟的场景。Realtime API通过WebSocket支持实时对话，但语音选项有限。音频输入每分钟$0.06，输出$0.24，长时间使用成本较高。

🎯

关键要点

OpenAI推出了Realtime API公测版，支持低延迟、多模态语音交互，简化对话应用开发。
Chat Completions API新增音频输入/输出功能，适合不需低延迟的场景。
Realtime API通过WebSocket支持实时自然语音交互，使用六种预设语音，简化开发流程。
Realtime API将语音识别和合成整合为单个API调用，提高对话流畅性。
Realtime API支持持续消息交换和功能调用，增强语音助手的个性化响应能力。
目前可用的语音选项有限，用户反馈与ChatGPT的高级语音模式相似，响应可能会被截断。
Realtime API对所有付费开发者开放公测，Chat Completions API的音频功能将在未来几周发布。
Realtime API的定价包括文本和音频令牌，音频输入每分钟约$0.06，输出$0.24。
开发者对长时间交互的成本表示担忧，因模型需重新处理先前内容，费用可能迅速累积。
开发者可通过官方文档和参考客户端开始探索Realtime API。

❓

延伸问答

Realtime API的主要功能是什么？

Realtime API支持低延迟、多模态语音交互，简化对话应用开发。

Realtime API的定价是怎样的？

音频输入每分钟约$0.06，输出$0.24，长时间使用成本较高。

Realtime API如何提高对话流畅性？

它将语音识别和合成整合为单个API调用，简化了开发流程。

开发者如何开始使用Realtime API？

开发者可以通过官方文档和参考客户端开始探索Realtime API。

Realtime API的语音选项有哪些？

目前可用的语音选项有限，包括合金、回声和闪烁等六种预设语音。

Chat Completions API与Realtime API有什么区别？

Chat Completions API适合不需低延迟的场景，而Realtime API支持实时对话。

🏷️

继续阅读

OpenAI挖走中科大少年班校友！12岁上大学，哈佛史上最年轻正教授
尹希，哈佛最年轻华人正教授，已加盟OpenAI，参与AI与理论物理研究。他认为AI将加速物理研究，带来突破。苏炜杰也在学术休假期间加入OpenAI。业内对...
有开发者的Codex Team订阅也从每周重置变成每月重置但可能是系统故障
OpenAI的Codex Team订阅用户发现使用配额从每周重置变为每月重置，可能是系统故障。免费版用户的算力受到限制，批量注册账号的收益有限。用户可以登...
早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
2026 06 03 HackerNews
预计SpaceX、Anthropic和OpenAI的首次公开募股将成为历史上最大规模的上市事件，可能为美股市值增加约4万亿美元。Mullvad警告社交媒体...
Anthropic 抢跑 IPO，AI 巨头接连秘密上市，背后是怎样的攻防战
从六月开始，SpaceX、OpenAI和Anthropic三家公司计划进行IPO，估值可能超过2000年以来所有美国风投支持的IPO总和。三家公司选择秘密...
腾讯云与Soniox建立战略合作伙伴关系，共同助力全球多语言语音AI应用发展
腾讯云与Soniox达成战略合作，结合Soniox的语音转文本技术与腾讯云的实时通信基础设施，支持全球200多个国家的多语言语音AI应用，提升用户体验，适...