超越生成：利用文本至图像模型进行对象检测和分割

通过使用文本到图像合成框架（如 DALL-E、稳定扩散等），我们提出了一种新的范式，以自动产生具有准确标签的训练数据。该方法将训练数据生成分解为前景物体生成和上下文一致的背景生成部分，并演示了在五个物体检测和分割数据集上使用我们方法生成的合成数据用于训练可以产生与使用真实数据训练的模型性能相媲美甚至更好的目标检测器。

本文提出了一种基于对物体的关注的生成对抗网络，用于文本到图像合成。该网络生成器注重文本描述中最相关的单词和预生成的语义布局，以合成显著物体。同时，提出了一种新技术，以提供丰富的针对对象的区分信号，判断生成的物体与文本描述和预生成布局是否匹配。该模型在 COCO 基准测试中表现出色，提高了 27％的 Inception 分数并降低了 11％的 FID 分数。