OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务;GPT-Realtime-Translate 可将 70 多种语言实时翻译成 13 种语言;GPT-Realtime-Whisper 提供低延迟的语音转文本服务。所有模型已通过 Realtime API 正式上线。

🎯

关键要点

  • OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。

  • GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务,具有 128K 上下文窗口和五级可调推理强度。

  • GPT-Realtime-Translate 能够将 70 多种语言实时翻译成 13 种语言,适用于双语客户支持和现场活动口译。

  • GPT-Realtime-Whisper 提供低延迟的语音转文本服务,适合实时转录应用,支持可控延迟。

  • 所有模型已通过 Realtime API 正式上线,Cedar 和 Marin 两个新语音包也已加入 API 库。

延伸问答

GPT-Realtime-2 的主要功能是什么?

GPT-Realtime-2 用于语音推理,具备 GPT-5 级推理能力,支持复杂对话和任务。

GPT-Realtime-Translate 支持哪些语言的翻译?

GPT-Realtime-Translate 能够将 70 多种输入语言实时翻译成 13 种输出语言。

GPT-Realtime-Whisper 的应用场景有哪些?

GPT-Realtime-Whisper 适用于直播字幕、会议记录和实时语音代理等场景。

如何调整 GPT-Realtime-2 的推理强度?

开发者可以将推理强度调整为五个级别:最低、低、中、高和超高。

Realtime API 的上线对开发者有什么影响?

Realtime API 正式上线为开发者提供了构建生产系统的机会,结束了测试阶段。

GPT-Realtime-2 的定价是多少?

GPT-Realtime-2 的定价为每百万个音频输入token 32 美元,每百万个音频输出token 64 美元。

➡️

继续阅读