高斯说话人:通过三维高斯喷洒合成特定说话人的形象

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

Talk3D是一种音频驱动的说话头合成框架,通过预训练的3D感知生成先验模型,可以重建面部几何形状。该方法在生成逼真的面部形状方面表现出色,并超越了现有基准。

🎯

关键要点

  • Talk3D是一种新的音频驱动的说话头合成框架。
  • 该框架通过预训练的3D感知生成先验模型重建面部几何形状。
  • 模型使用音频驱动的注意力U-Net架构,预测动态面部变化。
  • 调节令牌用于解耦与音频特征无关的变化。
  • 在生成逼真的面部几何形状方面,该方法表现出色,尤其在极端头部姿势下。
  • 广泛的实验证明该方法在定量和定性评估中超越了现有基准。
➡️

继续阅读