高斯说话人:通过三维高斯喷洒合成特定说话人的形象
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
Talk3D是一种音频驱动的说话头合成框架,通过预训练的3D感知生成先验模型,可以重建面部几何形状。该方法在生成逼真的面部形状方面表现出色,并超越了现有基准。
🎯
关键要点
- Talk3D是一种新的音频驱动的说话头合成框架。
- 该框架通过预训练的3D感知生成先验模型重建面部几何形状。
- 模型使用音频驱动的注意力U-Net架构,预测动态面部变化。
- 调节令牌用于解耦与音频特征无关的变化。
- 在生成逼真的面部几何形状方面,该方法表现出色,尤其在极端头部姿势下。
- 广泛的实验证明该方法在定量和定性评估中超越了现有基准。
➡️