机器之心 ·

OpenAI工程师亲自修订：用ChatGPT实时语音API构建应用

💡 原文中文，约14700字，阅读约需35分钟。

📝

内容提要

OpenAI实时API是一个开放接口，帮助开发者构建低延迟的语音AI应用，支持语音转语音功能，适用于聊天机器人。开发者可管理对话状态、处理用户中断，实现高效的上下文管理。Pipecat是一个开源框架，简化实时应用开发。

🎯

关键要点

OpenAI实时API是一个开放接口，帮助开发者构建低延迟的语音AI应用。
该API支持语音转语音功能，适用于聊天机器人和虚拟助手。
开发者可以管理对话状态、处理用户中断，实现高效的上下文管理。
Pipecat是一个开源框架，简化实时应用开发。
OpenAI Realtime API于2023年10月1日推出，旨在提供快速的智能语音体验。
实时API能够管理对话状态，支持双向音频流和用户中断功能。
API支持未压缩的16位、24khz音频和压缩的G.711音频。
对话式AI应用的语音到语音延迟大约为800毫秒。
OpenAI实时API通过WebSocket连接实现状态管理和事件传输。
Pipecat框架支持多种网络传输选项，包括WebSockets和WebRTC。
实时API的成本随着会话长度呈指数增长，但可以通过缓存输入tokens降低成本。
WebRTC在实时场景中优于WebSockets，适合对延迟要求严格的应用。
回声消除和音频处理是语音应用的重要功能，建议使用Chrome和Safari进行开发。
OpenAI实时API的函数调用功能表现良好，支持多种工具格式。
上下文管理在多轮对话中至关重要，OpenAI实时API提供了简化的上下文管理方案。

❓

延伸问答

OpenAI实时API的主要功能是什么？

OpenAI实时API帮助开发者构建低延迟的语音AI应用，支持语音转语音功能，并能够管理对话状态和处理用户中断。

Pipecat框架的作用是什么？

Pipecat是一个开源框架，旨在简化实时应用开发，支持多种网络传输选项，并提供上下文管理和事件处理功能。

OpenAI实时API的音频支持格式有哪些？

该API支持未压缩的16位、24kHz音频和压缩的G.711音频。

使用OpenAI实时API时，如何管理对话状态？

OpenAI实时API通过WebSocket连接实现状态管理，能够处理用户中断和管理多个用户的对话状态。

OpenAI实时API的延迟表现如何？

对话式AI应用的语音到语音延迟大约为800毫秒，API的第一个字节时间约为500毫秒。

WebRTC与WebSockets在实时应用中的区别是什么？

WebRTC适合对延迟要求严格的应用，能够处理音频流中的丢包问题，而WebSockets在延迟要求不高的场景中更为适用。

🏷️

继续阅读

OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
早报｜苹果iOS 27或大幅升级照片App/曝一加、realme正式合并/去年我国Token调用量达21100万亿
马斯克与OpenAI的官司已开庭，马斯克指控OpenAI盗用慈善机构，索赔超过1500亿美元。他自称是OpenAI的实际推动者，但表现不如预期。OpenA...
埃隆·马斯克在法庭上的最大敌人是他自己
在法庭上，埃隆·马斯克的证词表现不佳，尤其在交叉询问中显得情绪化和不一致。他指责OpenAI“盗窃慈善”，对其盈利模式感到失望，并表示曾希望控制OpenA...
马斯克诉奥特曼案中迄今揭示的所有证据
马斯克与奥特曼的诉讼揭示了OpenAI早期的内部邮件和文件。马斯克指控奥特曼等人违反慈善信托，质疑OpenAI是否偏离了其造福全人类的初衷。邮件显示，马斯...
阿里发布数字员工产品QoderWake，可承担工程师、运营、销售等岗位角色
阿里推出数字员工QoderWake和Qoder移动端，旨在提升工作效率。QoderWake是首个可持续进化的数字员工，能够承担多种岗位角色，并通过自我学习...