基于面部驱动的零射声音转换与基于记忆的面音对齐

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,采用变分自编码器对讲话人身份和语言内容进行解藕,实现了对未知说话人的声音特征进行控制。同时,探索了跨模态表示学习以提高面部说话人嵌入的语音控制能力。

🎯

关键要点

  • 提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法。
  • 采用变分自编码器对讲话人身份和语言内容进行解藕。
  • 实现了对未知说话人的声音特征进行控制。
  • 探索了跨模态表示学习以提高面部说话人嵌入的语音控制能力。
  • 通过大量实验证明该方法的有效性,合成话语更加自然且与输入视频个性匹配。
  • 这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。
➡️

继续阅读