谷歌发布 Gemini 3.1 Flash Live：面向AI代理的实时多模态语音模型

实时互动网 ·

谷歌发布 Gemini 3.1 Flash Live：面向AI代理的实时多模态语音模型

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

谷歌发布了Gemini 3.1 Flash Live预览版，旨在实现低延迟的实时语音交互。该模型通过原生音频处理提升了嘈杂环境中的语音识别准确性，并支持双向流式传输，允许用户中断对话。同时，开发者可调整推理深度，以优化速度与准确性。

🎯

关键要点

谷歌发布Gemini 3.1 Flash Live预览版，旨在实现低延迟的实时语音交互。
该模型通过原生音频处理提升了嘈杂环境中的语音识别准确性。
支持双向流式传输，允许用户中断对话。
开发者可调整推理深度，以优化速度与准确性。
Gemini 3.1 Flash Live简化了传统的语音处理流程，显著降低了延迟。
模型在ComplexFuncBench Audio测试中取得90.8%的高分，展示了其强大的智能推理能力。
使用WebSocket实现有状态的双向流，支持音频、视频帧和转录文本的同时传输。
开发者可以通过thinkingLevel参数调整模型的推理深度，平衡对话速度和思考深度。
目前模型处于开发者预览阶段，仅支持特定的音频格式和同步函数调用。

❓

延伸问答

Gemini 3.1 Flash Live的主要功能是什么？

Gemini 3.1 Flash Live旨在实现低延迟的实时语音交互，并通过原生音频处理提升语音识别准确性。

Gemini 3.1 Flash Live如何处理嘈杂环境中的语音？

该模型通过原生音频处理显著提升了在嘈杂环境中的语音识别准确性，能够从背景噪音中识别相关语音。

开发者如何调整Gemini 3.1 Flash Live的推理深度？

开发者可以通过thinkingLevel参数在“最低”、“低”、“中”和“高”之间进行选择，以优化对话速度和推理深度。

Gemini 3.1 Flash Live的双向流式传输有什么优势？

双向流式传输允许用户在AI说话过程中中断对话，模拟人类对话的节奏，提升交互的自然性。

Gemini 3.1 Flash Live在ComplexFuncBench Audio测试中的表现如何？

该模型在ComplexFuncBench Audio测试中取得了90.8%的高分，展示了其强大的智能推理能力。

目前Gemini 3.1 Flash Live的使用限制是什么？

该模型目前处于开发者预览阶段，仅支持特定的音频格式和同步函数调用。

🏷️

继续阅读

Genesys 的 CCaaS 年度经常性收入突破 25 亿美元，创市场第一
Genesys 的 CCaaS 年度经常性收入超过 25 亿美元，成为首家达到此里程碑的供应商。其 Genesys Cloud 平台同比增长 35%，70...
JAS 和 Monomax 携手 iPEN 和 Axinom，共同打造优质足球直播体验
JAS与Monomax达成战略合作，获得英超及其他足球联赛的独家直播权，提升泰国观众的观赛体验。iPEN和Axinom提供技术支持，确保内容传输的高质量与安全性。
Bitmovin 的 Player Web X 凭借以性能为先的广告架构实现扩展
Bitmovin于2026年3月26日发布了新一代网络视频播放器Player Web X，新增广告播放、竖屏视频支持和自适应比特率算法，优化了性能和模块化...
三月更加重要
文章讨论了2月份房地产数据变化，北京和上海的二手房房价开始回升。3月份的数据至关重要，标志着新一年的开始和计划制定。同时，职场流动性降低，AI行业迅速发展...
人形机器人，还未“造福”先“造富”
今年1月，关于“宇树科技IPO绿色通道被叫停”的消息刷屏社交平台，彼时消息称监管希望降温，机器人泡沫太大了。当外界以为宇树今年的上市计划将要落空时，事情峰...
黄仁勋的直钩钓不了中小企业
设想这样一个场景：一家估值百亿的制造巨头，试图用当下最火的智能体框架OpenClaw（业内戏称为“龙虾”）来审查一份涉及核心商业机密的供应链合同。技术团队...