研究人员使用X-Adapter成功实现了升级后的文本到图像扩散模型与预训练的即插即用模块的直接配合工作,无需重新训练。X-Adapter通过训练额外的网络来控制冻结的升级模型,并使用新的文本-图像数据对进行指导。实验证明X-Adapter具有通用兼容性,并能使不同版本的插件共同工作,扩展了扩散社区的功能。研究结果表明X-Adapter在升级的基础扩散模型中可能有更广泛的应用。
最新的文本到图像扩散模型在文本到三维生成领域取得重大突破,能够生成准确忠实的与输入对齐的三维场景。该技术增强了用户的可控性和交互式塑造能力。
通过使用预训练的文本到图像扩散模型生成未来类别的合成图像并使用它们训练特征提取器,我们提出的方法改进了无典范类增量学习的最新方法,特别是在只包含少量类别的最困难的情况下。此外,我们还表明使用未来类别的合成样本比使用不同类别的真实数据能够实现更高的性能,为增量学习的更好和更低成本的预训练方法铺平了道路。
最近的研究发现,文本到图像扩散模型在生成高质量图像方面表现出色,但也引发了对版权侵权和隐私风险的担忧。研究人员通过检查交叉注意力机制与记忆现象的关系,提出了一种新的视角来理解这一现象。他们发现交叉注意力倾向于过度关注特定标记的嵌入,导致模型记住了相应的训练图像。为了解决这个问题,他们提出了一种创新方法来检测和减轻扩散模型中的记忆现象,同时保持生成图像质量不受影响。
本文介绍了PI3D框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的3D形状。通过微调2D扩散模型为3D扩散模型,PI3D具备了3D生成能力和2D模型的泛化能力,并通过分数蒸馏抽样提高3D形状的质量。PI3D实现了从图像到三视图生成的迁移,并通过混合训练伪图像和真实图像提高泛化能力。PI3D能够在几秒钟内采样多样性的3D模型,并在几分钟内改进。实验结果证实了PI3D在快速生成一致且高质量的3D模型方面的优势。建议PI3D是文本到3D生成领域的一个有前景的进展。
本文介绍了一种创新的样式引导扩散模型 (SGDiff),结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。通过混合补充样式引导克服了文本到图像扩散模型的局限性,降低了训练成本,并解决了仅依靠文本输入来控制合成样式的困难。引入了一个新的数据集 - SG-Fashion,提供高分辨率图像和广泛的服装类别。通过削减研究,考察了无分类器引导方法在各种条件下的应用,并验证了该模型在生成时尚图像方面的有效性。贡献包括一种新颖的无分类器引导多模态特征融合方法,提供了全面的数据集,对条件文本到图像合成进行了深入研究,并为将来的研究提供了有价值的见解。
本研究提出了一种新颖的布局感知的文本到图像扩散模型NoiseCollage,解决了文本和布局条件不匹配的问题。实验结果表明,NoiseCollage优于其他模型,并展示了与ControlNet集成的效果。
通过大规模文本到图像扩散模型进行数据提炼,我们提出了一种高效的方法,通过调整通用化特征的基础生成对抗网络模型,减少培训成本和存储,实现实时高质量的图像编辑。
最新的文本到图像扩散模型在文本到三维生成领域取得重大突破,通过文本提示和手绘草图创作准确忠实的三维场景,提高用户可控性和交互式控制能力。
本研究提出了一种快速采用的文本到图像扩散模型,通过分布对齐损失和有偏直接微调,解决了职业提示中的性别、种族偏见。方法具有可扩展性,支持多样观点公平,对文本到图像生成人工智能的社会调整有所帮助。
本文提出了注意力隔离损失和注意力保留损失两种测试时间注意力损失函数,可提高预训练的基线文本到图像扩散模型的性能。注意力隔离损失减少了注意力图之间的交叉重叠,注意力保留损失则强制保留所有概念的交叉注意力信息,减少信息丢失。
DreamAvatar是一个生成高质量、可控制姿态的3D人类头像的框架,使用可训练的NeRF生成3D点密度和颜色特征,以及预先训练的文本到图像扩散模型提供2D自监督。经过评估,证明DreamAvatar优于现有方法,为文本和形状引导的3D人体生成设立了新的技术水准。
本文介绍了DiffBIR,一种利用预训练的文本到图像扩散模型解决盲目图像恢复问题的方法。该方法采用两阶段流程,第一阶段通过在各种退化情况下预训练恢复模块来提高泛化能力,第二阶段利用潜在扩散模型的生成能力实现逼真的图像恢复。实验证明该方法在盲目图像超分辨率和盲目人脸恢复任务上优于现有方法。
本文介绍了一种创新的样式引导扩散模型 (SGDiff),结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。通过混合补充样式引导克服了文本到图像扩散模型的局限性,降低了训练成本,并解决了仅依靠文本输入来控制合成样式的困难。引入了一个新的数据集 - SG-Fashion,提供高分辨率图像和广泛的服装类别。通过削减研究,验证了该模型在生成所需类别、产品属性和样式的时尚图像方面的有效性。贡献包括一种新颖的无分类器引导多模态特征融合方法,提供全面的数据集,对条件文本到图像合成进行了深入研究,并为将来的研究提供了有价值的见解。
完成下面两步后,将自动完成登录并继续当前操作。