ConceptExpress: 利用扩散模型进行单图像无监督概念提取

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种用于处理多概念输入图像的文本本地化模型。该模型通过交叉注意力引导方法,在微调过程中建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并且能够生成与目标概念一致的交叉注意力映射。

🎯

关键要点

  • 本文介绍了一种文本本地化的文本到图像模型,用于处理多概念输入图像。
  • 现有的主题驱动模型主要依赖于单一概念的输入图像,处理多概念时面临困难。
  • 该模型在微调过程中采用交叉注意力引导方法,建立目标概念的视觉表示与标识符令牌之间的连接。
  • 实验结果显示,该方法在图像保真度和图像文本对齐方面优于或相当于基准模型。
  • 与自定义扩散方法相比,该方法在单一概念生成的 CLIP-I 得分提高了 7.04% 和 8.13%,多概念生成的 CLIP-T 得分提高了 2.22% 和 5.85%。
  • 该方法能够生成与目标概念一致的交叉注意力映射,这是现有模型所不具备的能力。
➡️

继续阅读