小红花·文摘

本文介绍了一种使用文本生成图像的方法，通过结合自然语言界面和空间控制，解决了与图像画布上特定位置对象相关的文本生成图像的问题。提出了一种零-shot分割指导方法ZestGuide，可以将预先训练的文本插入到图像扩散模型中。实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量。在COCO数据集上，结果比Paint with Words更好。