3D 感知的讲话头部视频动作转移

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新颖的3D感知说话人视频动作迁移网络Head3D,能够从2D主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。该方法能够生成可视化可解释的3D标准头部,并在跨身份设置中优于2D和3D先前方法。实验结果表明该方法能够轻松适应受控姿态的新视图合成任务。

🎯

关键要点

  • 本研究提出了一种新颖的3D感知说话人视频动作迁移网络Head3D。

  • Head3D能够从2D主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。

  • 该方法生成可视化可解释的3D标准头部。

  • 自我监督的3D头部几何学习模块能够从2D主体视频帧预测头部姿势和深度图。

  • 采用基于注意力的融合网络,将主体帧的背景和其他细节与3D主体头部相结合,生成合成目标视频。

  • 在两个公共说话人视频数据集上进行了广泛实验,结果表明Head3D在实际的跨身份设置中优于2D和3D先前方法。

  • 有证据显示Head3D能够轻松适应受控姿态的新视图合成任务。

➡️

继续阅读