EDTalk: 高效情感演讲头部合成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了高效解耦合框架EDTalk,用于言语生成。该框架能够分解面部动态,对嘴型、头部姿势和情绪表达进行个别操作,并根据视频或音频输入进行条件设置。实验证明了EDTalk的有效性。

🎯

关键要点

  • 本研究提出了高效解耦合框架EDTalk,用于言语生成。

  • EDTalk能够分解面部动态,允许对嘴型、头部姿势和情绪表达进行个别操作。

  • 框架根据视频或音频输入进行条件设置。

  • 面部动态通过三个轻量级模块分解为嘴部、姿势和表情的独立潜在空间。

  • 使用可学习的基向量定义每个空间内的特定运动。

  • 施加正交性约束并设计高效训练策略以加速训练过程,保证独立性。

  • 学习到的基向量存储在相应的存储器中,以实现与音频输入的共享先验知识。

  • 提出音频到运动模块,用于音频驱动的言语生成。

  • 实验证明了EDTalk的有效性。

➡️

继续阅读