五美元模型:从句子嵌入生成游戏地图和角色
原文中文,约300字,阅读约需1分钟。发表于: 。五美元模型是一种轻量级的文本到图像生成架构,可以通过编码的文本提示生成低维图像。尽管模型和数据集都很小,生成的图像仍然能够保持文本提示的语义意义。我们将该模型应用于三个小型数据集,并应用新颖的增强策略来改进模型在这些有限数据集上的性能。我们使用 CLIP VIT-B/32 模型生成的文本 - 图像对之间的余弦相似度评估了我们模型的性能。
本文介绍了一种使用文本生成图像的方法,通过结合自然语言界面和空间控制,解决了与图像画布上特定位置对象相关的文本生成图像的问题。提出了一种零-shot分割指导方法ZestGuide,可以将预先训练的文本插入到图像扩散模型中。实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量。在COCO数据集上,结果比Paint with Words更好。