模仿谈话:在几分钟内模仿个性化和富有表现力的三维谈话面孔

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

Talk3D是一种音频驱动的说话头合成框架,利用预训练的3D生成模型重建面部几何。通过注意力U-Net架构,模型在NeRF空间中预测动态面部变化,并使用调节令牌解耦音频无关的变化。相比现有方法,Talk3D在生成逼真面部几何方面表现出色,即使在极端头部姿势下也能保持效果,实验结果显示其超越现有基准。

🎯

关键要点

  • Talk3D是一种音频驱动的说话头合成框架。

  • 该框架利用预训练的3D生成模型重建面部几何。

  • 模型采用音频驱动的注意力U-Net架构,预测动态面部变化。

  • 使用调节令牌解耦与音频无关的变化。

  • Talk3D在生成逼真面部几何方面表现出色,尤其在极端头部姿势下。

  • 实验结果显示Talk3D超越了现有的基准。

➡️

继续阅读