BriefGPT - AI 论文速递 ·

预防定制文本到图像扩散过拟合的注入方法

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于Custom Diffusion的文本到图像生成模型，能够快速调整新概念并优化多个概念的组合。该方法通过微调文本嵌入，实现低成本的多概念生成，提升了图像与文本的一致性。同时，研究提出了新的训练目标和评估指标，以增强个性化图像生成的能力，并展示了在复杂场景中的有效性。

🎯

❓

Custom Diffusion模型能够快速调整新概念并优化多个概念的组合，提升图像与文本的一致性。

研究提出了直接一致性优化作为新的训练目标，以及Concept Confidence Deviation (CCD)作为新的评估指标。

通过微调文本嵌入，该方法实现了低成本的多概念生成，且在扩散步骤中不增加附加的训练或推理成本。

DisenDiff机制能够捕捉单个图像中的多个概念，生成新颖的定制图像。

该方法在复杂场景中有效，能够处理不同主题及其附件之间的相互干扰。

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，显著提高个性化T2I模型的组合能力。

🏷️