谷歌开发语音转换AI以恢复声音

谷歌开发语音转换AI以恢复声音

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

谷歌研究团队开发了一种零样本语音转换模型,可以定制特定人声的文本转语音系统,特别适用于失声者如帕金森病或ALS患者。该模型支持多语言,只需几秒钟的参考语音即可复制声音。通过语音编码器生成嵌入向量,再传递给解码器。实验中,76%的评审认为生成语音与真实语音相同。为防止滥用,谷歌加入了音频水印。

🎯

关键要点

  • 谷歌研究团队开发了一种零样本语音转换模型,定制特定人声的文本转语音系统。
  • 该模型特别适用于失声者,如帕金森病或ALS患者,支持多语言。
  • 模型仅需几秒钟的参考语音即可复制声音,适合没有多音频样本的说话者。
  • 语音编码器生成嵌入向量,传递给解码器进行语音合成。
  • 实验中,76%的评审认为生成的语音与真实语音相同。
  • 谷歌的语音转换模型基于多语言文本转语音系统,支持超过100种语言。
  • 该系统使用文本编码器将文本数据转换为令牌序列,并通过持续时间预测器生成匹配的音频持续时间序列。
  • AI语音转换是一个活跃的研究领域,其他公司也在开发类似技术。
  • AI模型克隆声音的能力引发了滥用的担忧,谷歌在输出中加入了音频水印以防止滥用。
➡️

继续阅读