介绍gpt-realtime和实时API更新

介绍gpt-realtime和实时API更新

💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

OpenAI发布了实时API,支持远程MCP服务器、图像输入和SIP电话呼叫,提升了语音代理能力。新模型gpt-realtime在理解复杂指令和生成自然语音方面表现出色,并推出了两种新声音。API优化了可靠性和低延迟,适合生产环境。

🎯

关键要点

  • OpenAI发布了实时API,支持远程MCP服务器、图像输入和SIP电话呼叫,提升了语音代理能力。

  • 新模型gpt-realtime在理解复杂指令和生成自然语音方面表现出色,推出了两种新声音。

  • API优化了可靠性和低延迟,适合生产环境。

  • gpt-realtime模型在音频质量、智能、指令遵循和功能调用方面有显著提升。

  • 新模型能够更自然地进行对话,适应语气和语言切换。

  • 支持图像输入,用户可以在对话中添加图片,增强交互体验。

  • 新增的SIP支持使得应用可以连接到公共电话网络和PBX系统。

  • 实时API包含多层安全措施,防止滥用和不当使用。

  • 实时API和gpt-realtime模型的定价降低20%,并提供更细致的会话上下文控制。

延伸问答

gpt-realtime模型的主要优势是什么?

gpt-realtime模型在理解复杂指令、生成自然语音和音频质量方面有显著提升,能够更自然地进行对话。

实时API支持哪些新功能?

实时API支持远程MCP服务器、图像输入和SIP电话呼叫,增强了语音代理的能力。

如何在实时API中使用图像输入?

用户可以在对话中添加图片,模型可以根据用户提供的图像进行互动,例如询问“你看到什么?”

gpt-realtime模型在指令遵循方面的表现如何?

gpt-realtime在指令遵循的准确性上有显著提高,能够更好地执行开发者的指令。

实时API的定价策略是什么?

实时API和gpt-realtime模型的定价降低20%,音频输入和输出的费用分别为每百万个音频输入令牌32美元和每百万个音频输出令牌64美元。

实时API如何确保安全性和隐私?

实时API采用多层安全措施,防止滥用,并支持EU数据驻留,符合企业隐私承诺。

➡️

继续阅读