本研究提出了高效的言语生成框架EDTalk,可分解面部动态并进行个别操作,根据视频或音频输入进行条件设置。通过三个轻量级模块将面部动态分解为嘴部、姿势和表情三个独立潜在空间,并利用可学习的基向量对每个空间内的特定运动进行定义。实验证明了EDTalk的有效性。
完成下面两步后,将自动完成登录并继续当前操作。