本文介绍了一种基于Blob的文本-图像扩散模型BlobGEN,用于组合生成。通过屏蔽式交叉注意力模块解决Blob表示和视觉特征融合问题,发挥大型语言模型的组合性。实验结果表明,BlobGEN在MS-COCO上实现了卓越的零样本生成质量和布局引导可控性。
该文章介绍了大规模文本-图像扩散模型的突破性发展,可以生成令人信服的图像,并让用户具有控制能力。该技术应用前景广阔。
通过删除稳健特征,我们发现了一种名为“自然去噪扩散攻击”的新型攻击。我们构建了大规模数据集评估文本-图像扩散模型的攻击能力,并证实了攻击的有效性。非稳健特征对于自然攻击能力起到了贡献作用。我们对一辆自动驾驶汽车进行了攻击,发现物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够提高社区对扩散模型风险的认识,并推动深度神经网络模型的研究。
完成下面两步后,将自动完成登录并继续当前操作。