内容提要
OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务;GPT-Realtime-Translate 可将 70 多种语言实时翻译成 13 种语言;GPT-Realtime-Whisper 提供低延迟的语音转文本服务。所有模型已通过 Realtime API 正式上线。
关键要点
-
OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。
-
GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务,具有 128K 上下文窗口和五级可调推理强度。
-
GPT-Realtime-Translate 能够将 70 多种语言实时翻译成 13 种语言,适用于双语客户支持和现场活动口译。
-
GPT-Realtime-Whisper 提供低延迟的语音转文本服务,适合实时转录应用,支持可控延迟。
-
所有模型已通过 Realtime API 正式上线,Cedar 和 Marin 两个新语音包也已加入 API 库。
延伸问答
GPT-Realtime-2 的主要功能是什么?
GPT-Realtime-2 用于语音推理,具备 GPT-5 级推理能力,支持复杂对话和任务。
GPT-Realtime-Translate 支持哪些语言的翻译?
GPT-Realtime-Translate 能够将 70 多种输入语言实时翻译成 13 种输出语言。
GPT-Realtime-Whisper 的应用场景有哪些?
GPT-Realtime-Whisper 适用于直播字幕、会议记录和实时语音代理等场景。
如何调整 GPT-Realtime-2 的推理强度?
开发者可以将推理强度调整为五个级别:最低、低、中、高和超高。
Realtime API 的上线对开发者有什么影响?
Realtime API 正式上线为开发者提供了构建生产系统的机会,结束了测试阶段。
GPT-Realtime-2 的定价是多少?
GPT-Realtime-2 的定价为每百万个音频输入token 32 美元,每百万个音频输出token 64 美元。