OpenAI ·

介绍gpt-realtime和实时API更新

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

OpenAI发布了实时API，支持远程MCP服务器、图像输入和SIP电话呼叫，提升了语音代理能力。新模型gpt-realtime在理解复杂指令和生成自然语音方面表现出色，并推出了两种新声音。API优化了可靠性和低延迟，适合生产环境。

🎯

🔎

OpenAI的实时API支持远程MCP服务器和SIP电话呼叫，适用于多种场景，如客户支持和个人助理。开发者可以利用这些功能构建更智能的语音代理，提升用户体验。尤其是在需要快速响应和高质量对话的应用中，实时API的低延迟和高可靠性显得尤为重要。

新发布的gpt-realtime模型在理解复杂指令和生成自然语音方面表现优异。它能够更好地适应用户的语气和语言切换，提升了交互的自然性。这对于需要多语言支持和情感表达的应用场景，如教育和医疗，具有重要意义。

实时API内置多层安全措施，旨在防止滥用和不当使用。开发者在使用时需遵循使用政策，确保用户明确知道与AI的互动。这种透明性不仅保护用户隐私，也有助于建立信任，尤其是在敏感领域的应用中。

❓

gpt-realtime模型在理解复杂指令、生成自然语音和音频质量方面有显著提升，能够更自然地进行对话。

实时API支持远程MCP服务器、图像输入和SIP电话呼叫，增强了语音代理的能力。

用户可以在对话中添加图片，模型可以根据用户提供的图像进行互动，例如询问“你看到什么？”

gpt-realtime在指令遵循的准确性上有显著提高，能够更好地执行开发者的指令。

实时API和gpt-realtime模型的定价降低20%，音频输入和输出的费用分别为每百万个音频输入令牌32美元和每百万个音频输出令牌64美元。

实时API采用多层安全措施，防止滥用，并支持EU数据驻留，符合企业隐私承诺。

🏷️