3D 感知的讲话头部视频动作转移
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新颖的3D感知说话人视频动作迁移网络Head3D,能够从2D主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。该方法能够生成可视化可解释的3D标准头部,并在跨身份设置中优于2D和3D先前方法。实验结果表明该方法能够轻松适应受控姿态的新视图合成任务。
🎯
关键要点
-
本研究提出了一种新颖的3D感知说话人视频动作迁移网络Head3D。
-
Head3D能够从2D主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。
-
该方法生成可视化可解释的3D标准头部。
-
自我监督的3D头部几何学习模块能够从2D主体视频帧预测头部姿势和深度图。
-
采用基于注意力的融合网络,将主体帧的背景和其他细节与3D主体头部相结合,生成合成目标视频。
-
在两个公共说话人视频数据集上进行了广泛实验,结果表明Head3D在实际的跨身份设置中优于2D和3D先前方法。
-
有证据显示Head3D能够轻松适应受控姿态的新视图合成任务。
➡️