OpenAI的gpt-realtime实现了端到端语音处理的生产就绪语音代理

OpenAI的gpt-realtime实现了端到端语音处理的生产就绪语音代理

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

OpenAI发布了gpt-realtime,提升了语音处理能力,减少延迟并改善语音质量。新API支持图像输入和电话呼叫,增强了开发者工具。gpt-realtime能更自然地响应风格指令,支持多语言和非语言线索,准确率显著提高,企业合作伙伴正在测试这些功能。

🎯

关键要点

  • OpenAI发布了gpt-realtime,提升了语音处理能力,减少延迟并改善语音质量。
  • 新API支持图像输入和电话呼叫,增强了开发者工具。
  • gpt-realtime能够更自然地响应风格指令,支持多语言和非语言线索。
  • 在理解基准测试中,gpt-realtime的准确率显著提高,达到82.8%。
  • 功能调用方面,模型在识别相关功能和提供正确参数方面表现更佳,准确率提高至66.5%。
  • Realtime API已升级,支持远程MCP服务器连接和图像输入,简化会话管理。
  • 早期企业合作伙伴正在测试这些功能,Zillow和T-Mobile在探索实时适应性应用。
  • OpenAI加强了部署安全措施,Realtime API包含分类器以终止有害对话。
  • gpt-realtime模型和Realtime API现已向所有开发者开放,开发者可访问文档和测试演示。

延伸问答

gpt-realtime的主要功能是什么?

gpt-realtime主要用于端到端的语音处理,提升语音质量,减少延迟,并支持图像输入和电话呼叫。

gpt-realtime在准确率上有什么提升?

gpt-realtime在理解基准测试中的准确率达到了82.8%,相比之前的模型提高了17.2%。

OpenAI如何增强gpt-realtime的安全性?

OpenAI在gpt-realtime中加入了分类器,以终止有害对话,并允许开发者通过Agents SDK添加领域特定的保护措施。

gpt-realtime支持哪些语言?

gpt-realtime支持多种语言,包括西班牙语、中文、日语和法语。

开发者如何使用gpt-realtime?

开发者可以访问Realtime API文档和提示指南,立即开始使用gpt-realtime,并在Playground中测试新功能。

gpt-realtime的功能调用准确率如何?

在功能调用方面,gpt-realtime的准确率提高至66.5%,相比之前的49.7%有显著提升。

➡️

继续阅读