OpenAI ·

在API中推出新一代音频模型

Q: 新音频模型的推出时间是什么时候？

新音频模型于2025年3月20日推出。

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

2025年3月20日，推出新一代音频模型，提升语音代理的智能和交互能力。新模型具备更精准的语音转文本和文本转语音功能，适用于客户服务和创意叙事等场景，开发者可定制语音风格，增强用户体验，且在多语言环境中表现优异。

🎯

关键要点

2025年3月20日推出新一代音频模型，提升语音代理的智能和交互能力。
新模型具备更精准的语音转文本和文本转语音功能，适用于客户服务和创意叙事等场景。
开发者可以定制语音风格，增强用户体验，特别是在多语言环境中表现优异。
新语音转文本模型在准确性和可靠性方面超越现有解决方案，尤其在口音、嘈杂环境和不同语速的挑战场景中表现出色。
文本转语音模型允许开发者指示模型以特定方式发声，提供更高的定制化体验。
新模型基于GPT-4o架构，经过专业音频数据集的预训练，优化了模型性能。
新音频模型现已向所有开发者开放，简化了构建语音代理的过程。

🔎

延伸解读

新模型的应用场景

新一代音频模型在客户服务和创意叙事等领域具有广泛应用潜力。开发者可以利用其精准的语音转文本和文本转语音功能，提升用户体验，尤其是在多语言环境中，能够更好地满足不同用户的需求。

定制化体验的重要性

新模型允许开发者定制语音风格，这一特性为用户提供了更具个性化的互动体验。通过调整语音的语调和风格，企业可以在客户服务中展现更高的同理心，增强用户的满意度和忠诚度。

技术创新的优势

新模型基于GPT-4o架构，经过专业音频数据集的预训练，显著提升了语音识别的准确性和可靠性。这种技术创新使得模型在嘈杂环境和不同口音的识别上表现优异，为实际应用提供了强有力的支持。

❓

延伸问答

新一代音频模型的主要功能是什么？

新一代音频模型具备更精准的语音转文本和文本转语音功能，提升语音代理的智能和交互能力。

开发者如何定制语音风格？

开发者可以通过文本转语音模型指示模型以特定方式发声，从而实现语音风格的定制。

新模型在多语言环境中的表现如何？

新模型在多语言环境中表现优异，能够处理多种语言的语音转文本和文本转语音任务。

新音频模型的推出时间是什么时候？