The Keyword ·

改进的Gemini音频模型，实现强大的语音交互

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

谷歌本周发布了Gemini 2.5 Flash Native Audio，提升了语音代理的对话能力，支持复杂工作流程和自然对话，并推出实时语音翻译功能，支持70多种语言，增强全球沟通。用户反馈积极，广泛应用于多个行业。

🎯

🔎

Gemini 2.5 Flash Native Audio的发布，标志着语音交互技术的进一步成熟。其在多个行业的应用，如客户服务和金融领域，显示出AI语音代理在提升用户体验和工作效率方面的潜力。企业可以利用这一技术优化客户沟通，提升服务质量。

新推出的实时语音翻译功能支持70多种语言，能够在多语言环境中实现无缝沟通。这一功能不仅适用于个人用户，也为跨国企业提供了便利，帮助他们在全球市场中更好地进行交流与合作。

Gemini 2.5在功能调用和指令遵循方面的显著提升，反映了谷歌在AI语音技术上的持续创新。用户反馈显示，许多用户在使用过程中几乎忘记自己是在与AI对话，这表明该技术在自然对话能力上的成功。

❓

Gemini 2.5 Flash Native Audio在处理复杂工作流程、指令遵循和对话流畅性方面有显著提升。

该模型支持超过70种语言的实时语音翻译。

用户反馈积极，认为该模型在多个行业中得到了广泛应用，提升了对话体验。

用户可以通过Vertex AI构建语音代理，Gemini 2.5 Flash Native Audio现已普遍可用。

实时语音翻译支持连续听和双向对话，能够自动识别语言并进行翻译。

该模型在多轮对话质量上有显著提升，能够更有效地从之前的对话中检索上下文。

🏷️