InfoQ ·

OpenAI的gpt-realtime实现了端到端语音处理的生产就绪语音代理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

OpenAI发布了gpt-realtime，提升了语音处理能力，减少延迟并改善语音质量。新API支持图像输入和电话呼叫，增强了开发者工具。gpt-realtime能更自然地响应风格指令，支持多语言和非语言线索，准确率显著提高，企业合作伙伴正在测试这些功能。

🎯

关键要点

OpenAI发布了gpt-realtime，提升了语音处理能力，减少延迟并改善语音质量。
新API支持图像输入和电话呼叫，增强了开发者工具。
gpt-realtime能够更自然地响应风格指令，支持多语言和非语言线索。
在理解基准测试中，gpt-realtime的准确率显著提高，达到82.8%。
功能调用方面，模型在识别相关功能和提供正确参数方面表现更佳，准确率提高至66.5%。
Realtime API已升级，支持远程MCP服务器连接和图像输入，简化会话管理。
早期企业合作伙伴正在测试这些功能，Zillow和T-Mobile在探索实时适应性应用。
OpenAI加强了部署安全措施，Realtime API包含分类器以终止有害对话。
gpt-realtime模型和Realtime API现已向所有开发者开放，开发者可访问文档和测试演示。

🔎

延伸解读

实时语音处理的优势

gpt-realtime通过端到端的语音处理架构，显著降低了响应延迟，提升了语音质量。这种设计对于实时对话至关重要，能够保持对话的流畅性，避免因小的延迟而影响用户体验。

多语言支持的潜力

gpt-realtime在多语言处理上表现出色，能够在同一句话中切换语言，并准确处理各种语言的非语言线索。这为全球用户提供了更自然的交互体验，尤其是在多语言环境中。

企业应用的前景

早期企业合作伙伴如Zillow和T-Mobile正在测试gpt-realtime的应用，探索如何利用实时适应性来提升客户服务和业务流程。这表明，AI语音代理在实际应用中具有广阔的前景。

安全性与合规性

OpenAI在gpt-realtime中加强了安全措施，集成了分类器以终止有害对话，并允许开发者添加特定领域的保护措施。这对于确保AI在商业环境中的安全使用至关重要，尤其是在处理敏感信息时。

❓

延伸问答

gpt-realtime的主要功能是什么？

gpt-realtime主要用于端到端的语音处理，提升语音质量，减少延迟，并支持图像输入和电话呼叫。

gpt-realtime在准确率上有什么提升？

gpt-realtime在理解基准测试中的准确率达到了82.8%，相比之前的模型提高了17.2%。

OpenAI如何增强gpt-realtime的安全性？

OpenAI在gpt-realtime中加入了分类器，以终止有害对话，并允许开发者通过Agents SDK添加领域特定的保护措施。

gpt-realtime支持哪些语言？

gpt-realtime支持多种语言，包括西班牙语、中文、日语和法语。

开发者如何使用gpt-realtime？

开发者可以访问Realtime API文档和提示指南，立即开始使用gpt-realtime，并在Playground中测试新功能。

gpt-realtime的功能调用准确率如何？

在功能调用方面，gpt-realtime的准确率提高至66.5%，相比之前的49.7%有显著提升。

🏷️