The New Stack ·

OpenAI将GPT-5级推理引入其语音模型

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

OpenAI推出了三种新的语音模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。GPT-Realtime-2性能提升11%，支持更复杂的交互；GPT-Realtime-Translate专注于实时翻译，支持70种输入语言和13种输出语言；GPT-Realtime-Whisper是最新的流媒体转录模型，适用于多种语音AI应用场景，定价合理。

🎯

关键要点

OpenAI推出了三种新的语音模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。
GPT-Realtime-2性能提升11%，支持更复杂的交互，扩展了上下文窗口至128,000个标记。
GPT-Realtime-Translate专注于实时翻译，支持70种输入语言和13种输出语言。
GPT-Realtime-Whisper是最新的流媒体转录模型，定价为每分钟0.017美元。
OpenAI认为开发者使用语音AI的模式主要有三种：语音到行动、系统到语音和语音到语音。

🔎

延伸解读

语音模型的性能提升

OpenAI的GPT-Realtime-2在性能上提升了11%，并扩展了上下文窗口至128,000个标记。这一改进使得模型能够处理更复杂的交互，尤其适用于需要长时间对话的语音代理工作流。开发者在设计语音应用时，应关注如何利用这一性能提升来增强用户体验。

实时翻译的应用前景

GPT-Realtime-Translate支持70种输入语言和13种输出语言，专注于实时翻译。这一功能的推出为多语言交流提供了便利，尤其在国际会议和跨国业务中具有重要应用价值。开发者应考虑如何将这一功能整合到现有的产品中，以提升用户的沟通效率。

流媒体转录模型的优势

GPT-Realtime-Whisper作为最新的流媒体转录模型，定价为每分钟0.017美元，适合多种语音AI应用场景。其快速转录能力使得实时记录和信息提取变得更加高效，尤其在教育和会议记录等领域具有广泛的应用潜力。

❓

延伸问答

OpenAI推出了哪些新的语音模型？

OpenAI推出了GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三种新的语音模型。

GPT-Realtime-2相比于之前的版本有什么改进？

GPT-Realtime-2性能提升11%，并将上下文窗口扩展至128,000个标记，支持更复杂的交互。

GPT-Realtime-Translate支持多少种语言的实时翻译？

GPT-Realtime-Translate支持70种输入语言和13种输出语言的实时翻译。

GPT-Realtime-Whisper的定价是多少？

GPT-Realtime-Whisper的定价为每分钟0.017美元。

开发者如何使用这些语音AI模型？

开发者可以通过语音到行动、系统到语音和语音到语音三种模式使用这些语音AI模型。

GPT-Realtime-2的推理能力有什么特点？

GPT-Realtime-2具备GPT-5级推理能力，能够理解上下文并进行复杂的交互。

🏷️