五美元模型:从句子嵌入生成游戏地图和角色
本文介绍了一种使用文本生成图像的方法,通过结合自然语言界面和空间控制,解决了与图像画布上特定位置对象相关的文本生成图像的问题。提出了一种零-shot分割指导方法ZestGuide,可以将预先训练的文本插入到图像扩散模型中。实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量。在COCO数据集上,结果比Paint with Words更好。
原文中文,约300字,阅读约需1分钟。