密集斑点表示的组合式文本到图像生成
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种基于Blob的文本-图像扩散模型BlobGEN,用于组合生成。通过屏蔽式交叉注意力模块解决Blob表示和视觉特征融合问题,发挥大型语言模型的组合性。实验结果表明,BlobGEN在MS-COCO上实现了卓越的零样本生成质量和布局引导可控性。
🎯
关键要点
- 现有的文本-图像模型在遵循复杂文本提示上存在困难,需要额外的基础输入以提高可控性。
- 本研究提出将场景分解为可容纳细粒度细节的模块化视觉基元,称为密集 Blob 表示。
- 基于 Blob 表示,开发了一种名为 BlobGEN 的文本-图像扩散模型,用于组合生成。
- 引入新的屏蔽式交叉注意力模块,解决 Blob 表示与视觉特征的融合问题,发挥大型语言模型的组合性。
- 采用新的上下文学习方法,从文本提示生成 Blob 表示。
- 实验结果表明,BlobGEN 在 MS-COCO 上实现了卓越的零样本生成质量和更好的布局引导可控性。
- 与大型语言模型结合使用时,BlobGEN 在组合图像生成基准上展现出卓越的数值和空间正确性。
🏷️
标签
➡️