💡
原文英文,约600词,阅读约需2分钟。
📝
内容提要
谷歌研究团队开发了一种零样本语音转换模型,可以定制特定人声的文本转语音系统,特别适用于失声者如帕金森病或ALS患者。该模型支持多语言,只需几秒钟的参考语音即可复制声音。通过语音编码器生成嵌入向量,再传递给解码器。实验中,76%的评审认为生成语音与真实语音相同。为防止滥用,谷歌加入了音频水印。
🎯
关键要点
- 谷歌研究团队开发了一种零样本语音转换模型,定制特定人声的文本转语音系统。
- 该模型特别适用于失声者,如帕金森病或ALS患者,支持多语言。
- 模型仅需几秒钟的参考语音即可复制声音,适合没有多音频样本的说话者。
- 语音编码器生成嵌入向量,传递给解码器进行语音合成。
- 实验中,76%的评审认为生成的语音与真实语音相同。
- 谷歌的语音转换模型基于多语言文本转语音系统,支持超过100种语言。
- 该系统使用文本编码器将文本数据转换为令牌序列,并通过持续时间预测器生成匹配的音频持续时间序列。
- AI语音转换是一个活跃的研究领域,其他公司也在开发类似技术。
- AI模型克隆声音的能力引发了滥用的担忧,谷歌在输出中加入了音频水印以防止滥用。
➡️