密集斑点表示的组合式文本到图像生成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种基于Blob的文本-图像扩散模型BlobGEN,用于组合生成。通过屏蔽式交叉注意力模块解决Blob表示和视觉特征融合问题,发挥大型语言模型的组合性。实验结果表明,BlobGEN在MS-COCO上实现了卓越的零样本生成质量和布局引导可控性。

🎯

关键要点

  • 现有的文本-图像模型在遵循复杂文本提示上存在困难,需要额外的基础输入以提高可控性。
  • 本研究提出将场景分解为可容纳细粒度细节的模块化视觉基元,称为密集 Blob 表示。
  • 基于 Blob 表示,开发了一种名为 BlobGEN 的文本-图像扩散模型,用于组合生成。
  • 引入新的屏蔽式交叉注意力模块,解决 Blob 表示与视觉特征的融合问题,发挥大型语言模型的组合性。
  • 采用新的上下文学习方法,从文本提示生成 Blob 表示。
  • 实验结果表明,BlobGEN 在 MS-COCO 上实现了卓越的零样本生成质量和更好的布局引导可控性。
  • 与大型语言模型结合使用时,BlobGEN 在组合图像生成基准上展现出卓越的数值和空间正确性。
➡️

继续阅读