InfoQ ·

谷歌开发语音转换AI以恢复声音

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

谷歌研究团队开发了一种零样本语音转换模型，可以定制特定人声的文本转语音系统，特别适用于失声者如帕金森病或ALS患者。该模型支持多语言，只需几秒钟的参考语音即可复制声音。通过语音编码器生成嵌入向量，再传递给解码器。实验中，76%的评审认为生成语音与真实语音相同。为防止滥用，谷歌加入了音频水印。

🎯

关键要点

谷歌研究团队开发了一种零样本语音转换模型，定制特定人声的文本转语音系统。
该模型特别适用于失声者，如帕金森病或ALS患者，支持多语言。
模型仅需几秒钟的参考语音即可复制声音，适合没有多音频样本的说话者。
语音编码器生成嵌入向量，传递给解码器进行语音合成。
实验中，76%的评审认为生成的语音与真实语音相同。
谷歌的语音转换模型基于多语言文本转语音系统，支持超过100种语言。
该系统使用文本编码器将文本数据转换为令牌序列，并通过持续时间预测器生成匹配的音频持续时间序列。
AI语音转换是一个活跃的研究领域，其他公司也在开发类似技术。
AI模型克隆声音的能力引发了滥用的担忧，谷歌在输出中加入了音频水印以防止滥用。

❓

延伸问答

谷歌的语音转换模型适合哪些人群使用？

该模型特别适用于失声者，如帕金森病或ALS患者。

谷歌的语音转换模型需要多少参考语音才能复制声音？

模型仅需几秒钟的参考语音即可复制声音。

谷歌的语音转换模型支持哪些语言？

该系统支持超过100种语言。

谷歌的语音转换模型是如何生成语音的？

模型通过语音编码器生成嵌入向量，再传递给解码器进行语音合成。

实验中评审对生成语音的评价如何？

76%的评审认为生成的语音与真实语音相同。

谷歌如何防止语音转换模型的滥用？

谷歌在输出中加入了音频水印以防止滥用。

🏷️

标签

ai 多语言文本转语音谷歌零样本语音转换音频水印

➡️

继续阅读

AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单
细粒度标签+ 20 种方言
The three ways AI unlocks transformation in Retail, Travel, and Consumer Goods
It is 5:45 on a Friday morning, and a store manager is standing in the back office...
At SIGGRAPH, NVIDIA Advances Graphics and Simulation With Agentic and Physical AI
From open models to real-time simulation, AI and graphics breakthroughs are t...
Dr. Jill Lepore on why AI backlash is vital for the future
Today, I’m talking with Harvard professor and New Yorker staff writer Dr. Jil...
How our universal content processing platform Riviera evolved for AI and beyond
Riviera is the Dropbox content processing platform that’s been iteratively im...
苹果国行 AI 刷屏之外，三星也把端侧大脑交给国产 AI
把智能装进手机的秘诀，在于「多、快、好、省」#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。