多样化的语义图像编辑与风格编码

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了一种弱监督方法,利用稀疏语义地图和文本描述或属性来控制对象的形状和类别,以及局部和全局风格,同时引入语义注意力模块来支持文本描述的条件。为了增强场景的可控性,提出了一个两步生成方案来分解背景和前景。

🎯

关键要点

  • 提出了一种弱监督方法,实现复杂场景下的有条件图像生成。
  • 用户可以对场景中出现的对象进行精细控制。
  • 利用稀疏语义地图控制对象的形状和类别。
  • 使用文本描述或属性控制局部和全局风格。
  • 引入语义注意力模块,支持文本描述的条件,计算成本与图像分辨率无关。
  • 提出两步生成方案,分解背景和前景以增强场景可控性。
  • 使用大词汇目标检测器产生的标签地图训练模型,能够访问未注释的数据。
  • 在这样的设置下,报告了比全监督设置更好的 FID 得分。
  • 展示了模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。
➡️

继续阅读