解决无微调个性化图像生成中的多条件混淆

本文研究个性化文本到图像生成的对象混淆问题，提出了一种加权合并方法以有效整合多个参考图像特征。通过实验验证，该方法在多对象个性化图像生成和单对象生成中均显著优于现有技术，具有良好的应用潜力。

我们提出了Subject-Diffusion模型，可以通过单个参考图像在开放域中生成个性化图像，无需微调。利用自动数据标注工具和LAION-Aesthetics数据集，构建了7600万图像的数据集。该模型结合文本和图像语义，实现高准确性和多主体生成。实验结果显示，该方法优于其他框架。