小红花·文摘

本文介绍了一种新的任务，即背景感知的文本到图像生成（BAT2I），通过生成的内容与给定的背景图像相匹配。作者提出了一个包含两个关键组件的网络，即位置检测网络（PDN）和协调网络（HN），用于BAT2I。通过多个GAN和注意力模块的重构生成网络，以更好地适应用户的偏好。此外，作者还将BATINet应用于文本引导的图像操作，解决了对象形状操作的最具挑战性的任务。通过在CUB数据集上的定性和定量评估，作者证明了该模型优于其他现有方法。