基于对象驱动的一次性细调文本到图像扩散与原型嵌入
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种新的开放域个性化图像生成模型Subject-Diffusion,通过构建大规模数据集和设计新的统一框架,实现了在任何领域中支持个性化生成单一或多个主体的能力。该模型在单一、多个和人类定制的图像生成方面表现优于其他框架。
🎯
关键要点
- 提出了一种新的开放域个性化图像生成模型Subject-Diffusion。
- 该模型不需要测试时微调,只需一个参考图像即可支持个性化生成单一或多个主体。
- 构建了一个包含7600万图像的大规模数据集,包含主体检测边界框、分割掩模和文本描述。
- 设计了一个新的统一框架,融合文本和图像语义,结合位置控制以提高主体的准确性和一般化能力。
- 采用注意力控制机制以支持多主体生成。
- 定性和定量结果表明,该方法在图像生成方面优于其他最先进的框架。
🏷️
标签
➡️