实时互动网 ·

Google AI 发布 Gemini 3.1 Flash TTS：表现力强、可控性高的 AI 语音技术新标杆

Q: Gemini 3.1 Flash TTS 支持多少种语言？

该模型支持70多种语言。

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

谷歌推出了Gemini 3.1 Flash TTS，这是一个改进的文本转语音模型，支持70多种语言，具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211，提供复杂的控制层，允许开发者根据场景调整语气、语速和口音。同时，集成的SynthID水印技术可识别AI生成内容，确保信息透明。

🎯

关键要点

谷歌推出Gemini 3.1 Flash TTS，这是一个改进的文本转语音模型，支持70多种语言。
该模型在行业基准测试中得分1211，成为谷歌最自然、最具表现力的语音模型。
Gemini 3.1 Flash TTS引入了复杂的控制层，允许开发者根据场景调整风格、语气、语速和口音。
该模型支持原生多说话人对话，提升了对话的自然流畅性，适用于播客和戏剧脚本等场景。
集成的SynthID水印技术可识别AI生成内容，确保信息透明，防止虚假信息传播。

🔎

延伸解读

多语言支持的优势

Gemini 3.1 Flash TTS 支持70多种语言，这为全球用户提供了更广泛的应用场景。开发者可以利用这一特性，创建适合不同文化和语言背景的语音应用，提升用户体验。

对话流畅性的提升

该模型的原生多说话人对话功能显著提高了对话的自然流畅性，特别适合播客和戏剧脚本等场景。开发者在设计互动内容时，可以更好地模拟真实对话，增强听众的沉浸感。

SynthID水印技术的重要性

随着AI生成内容的普及，SynthID水印技术的集成为确保信息透明和防止虚假信息传播提供了保障。开发者在使用该技术时，应关注其对音频体验的影响，确保水印不干扰用户的听觉感受。

❓

延伸问答

Gemini 3.1 Flash TTS 有哪些主要功能？

Gemini 3.1 Flash TTS 具备音频标签、自然语言控制和多说话人对话等功能。

Gemini 3.1 Flash TTS 支持多少种语言？

该模型支持70多种语言。

Gemini 3.1 Flash TTS 在行业基准测试中的表现如何？

该模型在行业基准测试中得分1211，成为谷歌最自然、最具表现力的语音模型。

开发者如何控制 Gemini 3.1 Flash TTS 的语音风格？

开发者可以使用音频标签和自然语言提示来调整风格、语气、语速和口音。

Gemini 3.1 Flash TTS 的多说话人对话功能有什么优势？

该功能能够原生处理多说话人，保持更自然的对话流程，适合播客和戏剧脚本等场景。

SynthID 水印技术在 Gemini 3.1 Flash TTS 中的作用是什么？

SynthID 水印技术用于识别 AI 生成的内容，确保信息透明，防止虚假信息传播。

🏷️