BriefGPT - AI 论文速递 ·

Espresso：文本到图像模型中的鲁棒概念过滤

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文提出了一种低成本的文本到图像生成方法，通过微调预训练模型实现多概念生成。采用交叉注意力引导，分解多个概念，提升图像保真度和文本对齐度。实验结果表明，该方法在生成质量上优于现有模型，并有效去除不良概念，保持其他元素的完整性。

🎯

❓

Espresso方法通过微调预训练模型中的文本嵌入，结合交叉注意力引导，分解多个概念，从而实现多概念文本到图像生成。

实验结果表明，Espresso方法在图像保真度和文本对齐度上优于现有模型，能够更好地生成高质量图像。

通过引入可学习提示，Espresso方法能够有效去除不良概念，同时减少对模型参数和文本输入的依赖，保持其他元素的完整性。

交叉令牌非极大值抑制用于避免不同概念之间的特征混合，从而提升生成质量。

Espresso方法采用交叉注意力引导，分解多个概念，并在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接，以处理多概念输入图像。

在实验中，Espresso方法的单一概念生成的CLIP-I得分提高了7.04%至8.13%，多概念生成的CLIP-T得分提高了2.22%至5.85%。

🏷️