机器之心 ·

刚刚，OpenAI开启语音智能体时代，API价格低至每分钟0.015美元

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

OpenAI推出了新的音频模型GPT-4o，提升了语音转文本和文本转语音的准确性，尤其在复杂场景中表现优异。开发者可以定制AI的说话方式，适用于客户服务等领域。新模型在多个基准测试中表现出色，错误率更低，支持多语言，并提供API以简化开发，未来将继续优化性能。

🎯

关键要点

OpenAI推出了新的音频模型GPT-4o，提升了语音转文本和文本转语音的准确性。
新模型在复杂场景中表现优异，特别适合客户呼叫中心和会议记录转录等用例。
开发者可以通过新的API定制AI的说话方式，开启新的定制化应用。
OpenAI提供了一个网站供用户直接测试音频大模型的能力。
新的gpt-4o-transcribe和gpt-4o-mini-transcribe模型在单词错误率上优于原始Whisper模型。
新模型能够更好地捕捉语音细微差别，减少误认，提高转录可靠性。
OpenAI推出了gpt-4o-mini-tts模型，允许开发者指导模型的说话方式。
新音频API的定价保持业界平均水平，受到用户欢迎。
新音频模型基于GPT-4o架构，在专门的数据集上进行了预训练，优化了模型性能。
OpenAI增强了提炼技术，使小型模型能够提供出色的对话质量和响应能力。
新模型集成了大量强化学习，提高了转录准确性，增强了语音应用程序的性能。
OpenAI计划继续提升音频模型的智能性和准确性，并探索个性化体验的方法。

❓

延伸问答

OpenAI的新音频模型GPT-4o有哪些主要改进？

GPT-4o在语音转文本和文本转语音的准确性上有显著提升，尤其在复杂场景中表现优异，错误率更低。

开发者如何利用OpenAI的API定制AI的说话方式？

开发者可以通过新的API指导文本转语音模型以特定方式说话，开启定制化应用。

OpenAI的新音频模型适合哪些应用场景？

新模型特别适合客户呼叫中心、会议记录转录等复杂场景的应用。

OpenAI的音频API定价如何？

新音频API的定价保持业界平均水平，例如gpt-4o-mini-tts的百万token文本输入价格为0.60美元。

GPT-4o模型在语音识别方面的表现如何？

GPT-4o在多个基准测试中表现出色，单词错误率低于原始Whisper模型，转录准确性高。

OpenAI未来对音频模型有什么计划？

OpenAI计划继续提升音频模型的智能性和准确性，并探索个性化体验的方法。

🏷️

继续阅读

微软 Build 2026 大会凸显对话式 AI 的新阶段
在微软Build开发者大会上，微软发布了MAI-Transcribe-1.5语音转文本模型和MAI-Voice-2文本转语音产品，提升了语音识别和合成语音...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...