基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种新的多模态人脸图像生成方法,通过将文本提示和视觉输入转化为逼真的人脸图像,结合了生成对抗网络和扩散模型的优势,并通过简单映射和风格调节网络将两个模型结合起来,将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成对抗网络的翻转,可以生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略,将文本和结构表示反映到生成的图像中。我们的方法生成逼真的...
我们提出了一种新的多模态人脸图像生成方法,通过将文本提示和视觉输入转化为逼真的人脸图像。使用生成对抗网络和扩散模型的优势,并通过简单映射和风格调节网络将两个模型结合起来。我们的方法生成逼真的 2D、多视图和风格化的人脸图像,并与输入对齐。结果优于现有方法。