DEEPTalk:基于语音驱动的动态情感嵌入3D面部动画
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了高效的言语生成框架EDTalk,可分解面部动态并进行个别操作,根据视频或音频输入进行条件设置。通过三个轻量级模块将面部动态分解为嘴部、姿势和表情三个独立潜在空间,并利用可学习的基向量对每个空间内的特定运动进行定义。实验证明了EDTalk的有效性。
🎯
关键要点
-
本研究提出了高效的言语生成框架EDTalk。
-
EDTalk能够分解面部动态,允许对嘴型、头部姿势和情绪表达进行个别操作。
-
框架根据视频或音频输入进行条件设置。
-
面部动态被分解为嘴部、姿势和表情三个独立潜在空间。
-
使用可学习的基向量定义每个空间内的特定运动。
-
通过施加正交性约束和设计高效的训练策略加速训练过程。
-
学习到的基向量存储在相应的存储器中,以实现与音频输入的共享先验知识。
-
提出了音频到运动模块,用于音频驱动的言语生成。
-
实验证明了EDTalk的有效性。
➡️