基于几何引导文本图像扩散模型的神经辐射场可控三维化身生成

提出了一种可控的文本到三维头像生成方法 Text2Control3D，利用 ControlNet 生成视角感知图像，并通过交叉注意力注入可控的面部表情和外貌，通过高斯潜变量的低通滤波解决了视角不可知纹理问题，以及通过学习图片形变表构建三维头像。

DreamAvatar是一个生成高质量、可控制姿态的3D人类头像的框架，使用NeRF生成3D点密度和颜色特征，通过文本到图像扩散模型提供2D自监督，通过SMPL模型提供粗略的姿势和形状指导生成，通过双重空间设计将规范空间和观察空间联系起来。经过评估，DreamAvatar优于现有方法，为文本和形状引导的3D人体生成设立了新的技术水准。

3D人类头像 DreamAvatar NeRF SMPL模型扩散模型文本和形状引导