Espresso:文本到图像模型中的鲁棒概念过滤

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文提出了一种低成本的文本到图像生成方法,通过微调预训练模型实现多概念生成。采用交叉注意力引导,分解多个概念,提升图像保真度和文本对齐度。实验结果表明,该方法在生成质量上优于现有模型,并有效去除不良概念,保持其他元素的完整性。

🎯

关键要点

  • 通过微调预训练文本到图像扩散模型中的文本嵌入,设计了一种低成本的多概念文本到图像生成方法。
  • 采用交叉令牌非极大值抑制,避免不同概念之间的特征混合,提升生成质量。
  • 实验结果表明,该方法在图像保真度和文本对齐度上优于现有模型。
  • 引入可学习提示来去除不良概念,减少对模型参数和文本输入的依赖,保持其他元素的完整性。
  • 提出的交叉注意力引导方法能够生成与目标概念一致的交叉注意力映射,这是现有模型所不具备的能力。

延伸问答

Espresso方法如何实现多概念文本到图像生成?

Espresso方法通过微调预训练模型中的文本嵌入,结合交叉注意力引导,分解多个概念,从而实现多概念文本到图像生成。

该方法在生成质量上与现有模型相比有什么优势?

实验结果表明,Espresso方法在图像保真度和文本对齐度上优于现有模型,能够更好地生成高质量图像。

如何去除不良概念而不影响其他元素?

通过引入可学习提示,Espresso方法能够有效去除不良概念,同时减少对模型参数和文本输入的依赖,保持其他元素的完整性。

交叉令牌非极大值抑制的作用是什么?

交叉令牌非极大值抑制用于避免不同概念之间的特征混合,从而提升生成质量。

Espresso方法如何处理多概念输入图像?

Espresso方法采用交叉注意力引导,分解多个概念,并在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接,以处理多概念输入图像。

Espresso方法在实验中取得了哪些具体的性能提升?

在实验中,Espresso方法的单一概念生成的CLIP-I得分提高了7.04%至8.13%,多概念生成的CLIP-T得分提高了2.22%至5.85%。

➡️

继续阅读