密集斑点表示的组合式文本到图像生成
原文中文,约500字,阅读约需2分钟。发表于: 。现有的文本 - 图像模型在遵循复杂文本提示上困难重重,因此需要额外的基础输入以提高可控性。本研究提出将场景分解为可容纳细粒度细节、模块化、可解释的、易于构建的视觉基元 - 密集 Blob 表示。基于 Blob 表示,我们开发了一种基于 Blob 的文本 - 图像扩散模型 BlobGEN,用于组合生成。通过引入新的屏蔽式交叉注意力模块来解开 Blob...
本文介绍了一种基于Blob的文本-图像扩散模型BlobGEN,用于组合生成。通过屏蔽式交叉注意力模块解决Blob表示和视觉特征融合问题,发挥大型语言模型的组合性。实验结果表明,BlobGEN在MS-COCO上实现了卓越的零样本生成质量和布局引导可控性。