小红花·文摘

我们发布了Gemini 2.5 Flash和Pro文本转语音模型的重大升级，提升了表达能力、语速控制和多说话者对话的自然性，适用于有声书和电子学习等场景。开发者可在Google AI Studio中使用这些新模型。

提升Gemini文本转语音模型的控制能力和功能

The Keyword ·

我们的语音生成技术正在推动音频生成的前沿，提升与数字助手的互动体验。通过改进模型，我们能够从文本等多种输入生成高质量自然语音。新功能如NotebookLM音频概述和Illuminate使复杂内容更易理解。我们还开发了高效的语音编解码器和专门的Transformer架构，以生成多说话者对话。未来将继续提升模型表现力和音质，并探索与视频等其他模态的结合。

推动音频生成的前沿

Google DeepMind Blog ·