本研究提出了一种新的版权规避攻击方法CEAT2I,针对个性化文本生成图像扩散模型中的数据集版权问题。研究揭示了传统版权验证技术的脆弱性,并通过实验表明CEAT2I能有效规避这些验证,同时保持模型性能,具有重要的实用价值。
香港中文大学等团队研发的Neural LightRig,利用图像扩散模型生成多光照图像,解决了单图法线和材质估计的不确定性。实验结果表明,该方法在法线和材质估计上显著优于现有技术,适用于AR和VR领域,相关资源已开源。
本研究探讨了文本到图像扩散模型中的隐性偏见问题,提出了隐性偏见注入攻击框架(IBI-Attacks),该框架能够在不明显改变图像的情况下引入偏见,从而影响公众信息的传递。
本研究提出了InstantRestore框架,旨在解决面部图像恢复中的降质、实时处理和身份特征保持等问题。通过图像扩散模型和注意力共享机制,实现快速个性化恢复,并引入地标注意力损失。实验结果表明,该方法在质量和速度上优于现有技术,适合大规模应用。
本文提出了一种结合文本与图像的生成分类方法,利用扩展图像扩散模型实现零样本分类,显示出在多项基准测试中的优异表现,尤其在多模式关系推理方面更具优势。
本研究提出了一种高效的MeDM方法,利用预训练的图像扩散模型进行视频翻译,确保时间一致性。该框架能够根据场景位置信息渲染视频或进行文本引导编辑,经过广泛实验验证了其有效性。
本文介绍了PI3D框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的3D形状。通过微调2D扩散模型为3D扩散模型,PI3D具备了3D生成能力和2D模型的泛化能力,并通过分数蒸馏抽样提高采样的3D形状质量。PI3D实现了从图像到三视图生成的迁移,并通过混合训练伪图像和真实图像提高泛化能力。PI3D能够在几秒钟内采样多样性的3D模型,并在几分钟内改进。实验结果证实了PI3D在快速生成一致且高质量的3D模型方面的优势。建议PI3D是文本到3D生成领域的一个有前景的进展。
本论文通过软加权正则化和推理时文本嵌入优化的方法,解决了文本到图像扩散模型无法抑制生成不需要的内容的问题。实验证明该方法适用于像素空间扩散模型和潜空间扩散模型。
SiTH是一种新的流程,将图像扩散模型与3D网格重建相结合,推断未知的人体形状、服装和纹理信息。该方法生成逼真、带纹理的3D人体。
MVDream是一个多视图扩散模型,可以生成几何一致的多视图图像。该模型利用预训练的图像扩散模型和从3D资源渲染的多视图数据集,实现2D扩散的概括性和3D数据的一致性。该模型可以解决现有2D-lifting方法中的3D一致性问题,提高了稳定性。同时,该模型也可以在少量样本设置下进行微调,用于个性化的3D生成。
完成下面两步后,将自动完成登录并继续当前操作。