解决无微调个性化图像生成中的多条件混淆

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们提出了Subject-Diffusion模型,可以通过单个参考图像在开放域中生成个性化图像,无需微调。利用自动数据标注工具和LAION-Aesthetics数据集,构建了7600万图像的数据集。该模型结合文本和图像语义,实现高准确性和多主体生成。实验结果显示,该方法优于其他框架。

🎯

关键要点

  • 提出了一种新的开放域个性化图像生成模型Subject-Diffusion。
  • 该模型无需微调,仅需一个参考图像即可支持个性化生成。
  • 构建了7600万图像的大规模数据集,包含主体检测边界框、分割掩模和文本描述。
  • 设计了一个统一框架,融合文本和图像语义,提升主体的准确性和一般化能力。
  • 采用注意力控制机制以支持多主体生成。
  • 实验结果表明,该方法在图像生成方面优于其他最先进的框架。
➡️

继续阅读