MultiTalk: 多语种视频数据集增强跨语言的三维说话头生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

Talk3D是一种音频驱动的说话头合成框架,通过预训练的3D感知生成先验模型,重建面部几何形状。实验证明该方法在生成逼真的面部几何形状方面表现出色,超越现有基准。

🎯

关键要点

  • Talk3D是一种音频驱动的说话头合成框架。
  • 该框架通过预训练的3D感知生成先验模型重建面部几何形状。
  • 模型采用音频驱动的注意力U-Net架构,预测动态面部变化。
  • 通过调节令牌有效解耦与音频特征无关的变化。
  • 在极端头部姿势下,Talk3D仍能生成逼真的面部几何形状。
  • 实验证明该方法在定量和定性评估中超越现有基准。
➡️

继续阅读