内容提要
OpenAI发布了实时API,支持远程MCP服务器、图像输入和SIP电话呼叫,提升了语音代理能力。新模型gpt-realtime在理解复杂指令和生成自然语音方面表现出色,并推出了两种新声音。API优化了可靠性和低延迟,适合生产环境。
关键要点
-
OpenAI发布了实时API,支持远程MCP服务器、图像输入和SIP电话呼叫,提升了语音代理能力。
-
新模型gpt-realtime在理解复杂指令和生成自然语音方面表现出色,推出了两种新声音。
-
API优化了可靠性和低延迟,适合生产环境。
-
gpt-realtime模型在音频质量、智能、指令遵循和功能调用方面有显著提升。
-
新模型能够更自然地进行对话,适应语气和语言切换。
-
支持图像输入,用户可以在对话中添加图片,增强交互体验。
-
新增的SIP支持使得应用可以连接到公共电话网络和PBX系统。
-
实时API包含多层安全措施,防止滥用和不当使用。
-
实时API和gpt-realtime模型的定价降低20%,并提供更细致的会话上下文控制。
延伸问答
gpt-realtime模型的主要优势是什么?
gpt-realtime模型在理解复杂指令、生成自然语音和音频质量方面有显著提升,能够更自然地进行对话。
实时API支持哪些新功能?
实时API支持远程MCP服务器、图像输入和SIP电话呼叫,增强了语音代理的能力。
如何在实时API中使用图像输入?
用户可以在对话中添加图片,模型可以根据用户提供的图像进行互动,例如询问“你看到什么?”
gpt-realtime模型在指令遵循方面的表现如何?
gpt-realtime在指令遵循的准确性上有显著提高,能够更好地执行开发者的指令。
实时API的定价策略是什么?
实时API和gpt-realtime模型的定价降低20%,音频输入和输出的费用分别为每百万个音频输入令牌32美元和每百万个音频输出令牌64美元。
实时API如何确保安全性和隐私?
实时API采用多层安全措施,防止滥用,并支持EU数据驻留,符合企业隐私承诺。