OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务;GPT-Realtime-Translate 可将 70 多种语言实时翻译成 13 种语言;GPT-Realtime-Whisper 提供低延迟的语音转文本服务。所有模型已通过 Realtime API 正式上线。

🎯

关键要点

  • OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。

  • GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务,具有 128K 上下文窗口和五级可调推理强度。

  • GPT-Realtime-Translate 能够将 70 多种语言实时翻译成 13 种语言,适用于双语客户支持和现场活动口译。

  • GPT-Realtime-Whisper 提供低延迟的语音转文本服务,适合实时转录应用,支持可控延迟。

  • 所有模型已通过 Realtime API 正式上线,Cedar 和 Marin 两个新语音包也已加入 API 库。

🔎

延伸解读

实时音频模型的应用场景

OpenAI的新音频模型为多种应用场景提供了解决方案。GPT-Realtime-2适合需要复杂推理的语音助手,而GPT-Realtime-Translate则专注于实时翻译,适合双语客户支持和现场活动。GPT-Realtime-Whisper则为需要快速转录的场合提供了低延迟的解决方案。开发者应根据具体需求选择合适的模型,以提升用户体验。

推理强度的灵活调整

GPT-Realtime-2的可调推理强度功能使开发者能够根据任务复杂性调整性能与延迟之间的平衡。这一特性对于优化用户体验至关重要,尤其是在处理简单查询与复杂任务时,可以有效减少不必要的等待时间。开发者应充分利用这一功能,以提高系统的响应效率。

模型的定价策略

OpenAI为新发布的音频模型设定了明确的定价策略,GPT-Realtime-2和GPT-Realtime-Translate的定价分别为每百万个音频输入token 32美元和每分钟0.034美元。这一定价策略使得开发者在预算控制上有了更清晰的预期,能够更好地评估模型的经济性与可行性。

延伸问答

GPT-Realtime-2 的主要功能是什么?

GPT-Realtime-2 用于语音推理,具备 GPT-5 级推理能力,支持复杂对话和任务。

GPT-Realtime-Translate 支持哪些语言的翻译?

GPT-Realtime-Translate 能够将 70 多种输入语言实时翻译成 13 种输出语言。

GPT-Realtime-Whisper 的应用场景有哪些?

GPT-Realtime-Whisper 适用于直播字幕、会议记录和实时语音代理等场景。

如何调整 GPT-Realtime-2 的推理强度?

开发者可以将推理强度调整为五个级别:最低、低、中、高和超高。

Realtime API 的上线对开发者有什么影响?

Realtime API 正式上线为开发者提供了构建生产系统的机会,结束了测试阶段。

GPT-Realtime-2 的定价是多少?

GPT-Realtime-2 的定价为每百万个音频输入token 32 美元,每百万个音频输出token 64 美元。

🏷️

标签

➡️

继续阅读