多样化的语义图像编辑与风格编码
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种弱监督方法,利用稀疏语义地图和文本描述或属性来控制对象的形状和类别,以及局部和全局风格,同时引入语义注意力模块来支持文本描述的条件。为了增强场景的可控性,提出了一个两步生成方案来分解背景和前景。
🎯
关键要点
- 提出了一种弱监督方法,实现复杂场景下的有条件图像生成。
- 用户可以对场景中出现的对象进行精细控制。
- 利用稀疏语义地图控制对象的形状和类别。
- 使用文本描述或属性控制局部和全局风格。
- 引入语义注意力模块,支持文本描述的条件,计算成本与图像分辨率无关。
- 提出两步生成方案,分解背景和前景以增强场景可控性。
- 使用大词汇目标检测器产生的标签地图训练模型,能够访问未注释的数据。
- 在这样的设置下,报告了比全监督设置更好的 FID 得分。
- 展示了模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。
➡️