本文介绍了一种使用文本生成图像的方法,通过结合自然语言界面和空间控制,解决了与图像画布上特定位置对象相关的文本生成图像的问题。提出了一种零-shot分割指导方法ZestGuide,可以将预先训练的文本插入到图像扩散模型中。实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量。在COCO数据集上,结果比Paint with Words更好。
完成下面两步后,将自动完成登录并继续当前操作。