The Keyword ·

提升Gemini文本转语音模型的控制能力和功能

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

我们发布了Gemini 2.5 Flash和Pro文本转语音模型的重大升级，提升了表达能力、语速控制和多说话者对话的自然性，适用于有声书和电子学习等场景。开发者可在Google AI Studio中使用这些新模型。

🎯

🔎

Gemini 2.5模型在表达能力上有显著提升，能够根据用户的风格提示提供更丰富的语调选择。这对于需要个性化声音的应用场景，如角色扮演游戏或有声书，尤为重要。开发者可以利用这一特性，创造出更具沉浸感的用户体验。

新模型的上下文感知语速控制功能，使得语速调整更加自然。无论是讲述故事还是解释复杂概念，模型都能根据内容的需要灵活调整语速。这一改进对于提升听众的理解和参与感具有重要意义，尤其在教育和娱乐领域。

Gemini 2.5在多说话者对话的处理上也有了显著改进，能够保持角色声音的一致性。这对于播客、模拟访谈等场景至关重要，能够让对话更加真实流畅。开发者应关注这一功能，以提升其内容的专业性和吸引力。

❓

Gemini 2.5 TTS模型的主要升级包括增强的表达能力、精确的语速控制和改进的多说话者对话能力。

Gemini 2.5 TTS模型适用于有声书、电子学习、产品教程和市场营销视频等场景。

开发者可以在Google AI Studio中通过Gemini API访问Gemini 2.5 Flash和Pro TTS模型。

模型通过保持一致的角色声音和自然的说话交接，改善了多说话者对话的自然性。

Gemini 2.5 TTS模型支持24种语言。

模型通过上下文感知的语速控制，能够根据信息的上下文自然调整语速。

🏷️