实时互动网 ·

OpenAI 的 WebSocket 模式如何重塑低延迟语音驱动 AI 体验

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

OpenAI通过Realtime API重构生成式AI架构，采用WebSocket协议实现全双工通信，降低延迟，提升语音助手的实时交互能力。新技术支持音频处理和改进语音活动检测，提供更自然的对话体验。

🎯

❓

OpenAI的WebSocket模式通过实现全双工通信，降低了延迟，使得语音助手能够更自然地进行实时对话。

Realtime API是OpenAI重构的语音驱动AI架构，支持音频处理和改进的语音活动检测，提供更自然的对话体验。

WebSocket协议支持持久的双向连接，允许模型同时“监听”和“发送”，从而实现更快速的实时交互。

高级语音活动检测技术能够区分用户思考和说完句子，避免尴尬的打断，创造更自然的对话体验。

该模式处理Base64编码的原始音频帧，支持PCM16和G.711两种音频格式，允许开发者以小块形式传输音频。

Realtime API通过绕过传统的STT → LLM → TTS流程，直接处理音频，降低了延迟并感知细微的副语言特征。

🏷️

OpenAI重返机器人赛道！四大核心岗位开招
OpenAI在硅谷大规模招聘机器人工程师，计划开发实体机器人，薪资高达220万元人民币。团队专注于机器人学习、仿真环境和家庭场景操作，目标是为技术工人提供...
Anthropic正式提交了公开募股申请
Anthropic已向美国证券交易委员会提交首次公开募股（IPO）申请，估值达9650亿美元，成为全球最有价值的初创公司，超过OpenAI的8520亿美元...
在密歇根州建设智能时代的基础设施
OpenAI在密歇根州萨林市启动了一个1GW数据中心项目，预计创造2500个建筑工会职位和450个永久岗位。该项目将不向当地居民转嫁基础设施费用，并采用闭...
Clayfin 通过战略收购 Louie Voice，拓展其在语音 AI 领域的业务
Clayfin于2026年6月1日收购了Louie Voice，一个创新的语音银行平台，旨在提升数字银行的可获取性和包容性。Louie Voice支持多种...
亚马逊云科技祭出组合拳更新，陈晓建：五层全栈能力加速Agentic AI落地
亚马逊云科技将在2026年推出Agentic AI，推动AI实际应用。新工具Amazon Quick将成为企业级安全的主动智能助手，并支持多种应用集成。同...
“炸毁一切”：供应商在AI代理上犯的一个错误
Hyland公司在CommunityLIVE 2026大会上推出多个平台更新，强调AI代理的有效性依赖于上下文。CEO Jitesh Ghai表示，企业应...