OpenAI ·

通过API中的新模型推动语音智能发展

💡 原文英文，约1600词，阅读约需6分钟。

📝

内容提要

OpenAI推出了三种音频模型，分别是GPT-Realtime-2（实时对话）、GPT-Realtime-Translate（支持70多种语言的实时翻译）和GPT-Realtime-Whisper（低延迟语音转文本）。这些模型提升了语音交互的智能性和响应能力，适用于客户支持和教育等领域。

🎯

🔎

OpenAI的新音频模型在多个领域展现出广泛的应用潜力。比如，GPT-Realtime-Translate可以在客户支持和教育中实现实时翻译，提升用户体验。而GPT-Realtime-Whisper则适用于会议和课堂，能够快速转录讲话内容，帮助用户更好地记录和回顾信息。

GPT-Realtime-2具备更强的推理能力和上下文管理能力，使得语音交互更加自然。然而，开发者在使用这些模型时仍需关注其在复杂请求处理中的表现，确保系统能够有效应对用户的多样化需求和突发情况。

GPT-Realtime-Translate支持70多种输入语言和13种输出语言，适应全球化的需求。这对于跨国企业和多语言环境中的用户尤为重要，能够促进不同语言用户之间的无缝沟通，提升业务效率。

❓

OpenAI推出了GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三种音频模型。

GPT-Realtime-2是首个具备GPT-5级推理能力的语音模型，能够处理复杂请求并自然地进行对话。

GPT-Realtime-Translate支持70多种输入语言和13种输出语言的实时翻译。

GPT-Realtime-Whisper适用于会议、课堂和其他高频率的口语交互，能够实时转录讲话内容。

这些模型通过实时处理、上下文保持和工具调用等功能，提升了语音交互的智能性和响应能力。

GPT-Realtime-Translate能够提供自然流畅的对话体验，适应不同的发音和领域特定语言。

🏷️