本文介绍了一种基于Blob的文本-图像扩散模型BlobGEN,用于组合生成。通过屏蔽式交叉注意力模块解决Blob表示和视觉特征融合问题,发挥大型语言模型的组合性。实验结果表明,BlobGEN在MS-COCO上实现了卓越的零样本生成质量和布局引导可控性。
完成下面两步后,将自动完成登录并继续当前操作。