CustomContrast:一种多层对比视角用于基于主题的文本到图像定制

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Diffusion是一种新的开放域个性化图像生成模型,通过一个参考图像生成单一或多个主体。它使用自动数据标注工具和LAION-Aesthetics数据集构建了大规模数据集。通过融合文本和图像语义,以及粗粒度位置和细粒度参考图像控制,最大化主体的准确性和一般化能力。采用注意力控制机制支持多主体生成。在单一、多个和人类定制的图像生成方面优于其他框架。

🎯

关键要点

  • 提出了一种新的开放域个性化图像生成模型Subject-Diffusion。
  • 该模型不需要测试时微调,只需一个参考图像即可支持个性化生成单一或多个主体。
  • 构建了一个包含7600万图像的大规模数据集,包含主体检测边界框、分割掩模和文本描述。
  • 设计了一个新的统一框架,融合文本和图像语义,结合粗粒度位置和细粒度参考图像控制。
  • 采用注意力控制机制支持多主体生成。
  • 大量定性和定量结果表明,该方法在图像生成方面优于其他最先进的框架。
➡️

继续阅读