通过具有美学约束的扩散模型实现对齐布局生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种布局到图像综合模型,通过对抗监督和分割鉴别器实现生成图像与输入布局的强对齐。实验结果表明,该模型生成的图像具有良好的布局保持性,并通过文本提示实现广泛的可编辑性。在实际应用中,该模型在语义分割模型的领域泛化方面取得了显著提升。
🎯
关键要点
- 提出了一种布局到图像综合模型,通过对抗监督实现生成图像与输入布局的强对齐。
- 模型使用基于分割的鉴别器提供像素级对齐的显式反馈。
- 引入多步展开策略,鼓励模型在采样步骤中与输入布局保持一致。
- 实验结果显示,模型生成的图像具有良好的布局保持性和广泛的可编辑性。
- 模型在实际应用中,通过文本控制合成目标分布样本,显著提升了语义分割模型的领域泛化(增加约12个mIoU分数)。
➡️