Google DeepMind Blog ·

改进版Gemini音频模型，带来强大的语音体验

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

谷歌推出了改进版的Gemini 2.5 Flash Native Audio，增强了语音交互能力，提供更精准的指令执行和更流畅的对话体验，同时支持70多种语言的实时语音翻译，用户可在Google Translate应用中体验这一功能。

🎯

🔎

改进版Gemini 2.5 Flash Native Audio在语音交互方面的提升，意味着用户在与AI进行对话时，能够享受到更自然和流畅的交流体验。这对于客户服务等领域尤为重要，能够提高用户满意度和工作效率。

Gemini 2.5支持70多种语言的实时语音翻译，能够保留说话者的语调和节奏。这一功能不仅适用于个人交流，也为跨国企业提供了更高效的沟通方式，降低了语言障碍带来的影响。

该模型在处理复杂指令方面的准确性显著提高，遵循开发者指令的成功率达到90%。这意味着开发者可以更放心地将其应用于需要高精度的场景，如金融服务或技术支持。

❓

Gemini 2.5 Flash Native Audio在功能调用准确性、复杂指令处理和对话流畅性方面有显著改进。

实时语音翻译功能支持70多种语言，能够处理2000种语言对。

用户可以在Google Translate应用中体验实时翻译功能，目前在美国、墨西哥和印度的Android设备上推出。

Gemini 2.5通过从之前的对话中检索上下文，提升了多轮对话的质量，使对话更加连贯。

Gemini 2.5在处理复杂指令时的遵循率达到了90%，比之前的84%有所提高。

Gemini 2.5 Flash Native Audio适用于Google AI Studio、Vertex AI等多个Google产品。

🏷️