小红花·文摘

本文提出了一种基于对物体的关注的生成对抗网络，用于文本到图像合成。该网络生成器注重文本描述中最相关的单词和预生成的语义布局，以合成显著物体。同时，提出了一种新技术，以提供丰富的针对对象的区分信号，判断生成的物体与文本描述和预生成布局是否匹配。该模型在 COCO 基准测试中表现出色，提高了 27％的 Inception 分数并降低了 11％的 FID 分数。