Espresso:文本到图像模型中的鲁棒概念过滤

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究提出了一种文本本地化的文本到图像模型,用于处理多概念输入图像。通过交叉注意力引导方法,该模型能够在图像保真度和图像文本对齐方面优于基准模型。实验结果显示,该方法相对于自定义扩散方法在单一概念生成和多概念生成方面有显著提高。该方法还能够生成与目标概念一致的交叉注意力映射。

🎯

关键要点

  • 该研究提出了一种文本本地化的文本到图像模型,用于处理多概念输入图像。
  • 现有的主题驱动模型主要依赖于单一概念的输入图像,处理多概念输入时面临困难。
  • 研究引入了一种交叉注意力引导方法,分解多个概念并建立视觉表示与标识符令牌的连接。
  • 实验结果表明,该方法在图像保真度和图像文本对齐方面优于或相当于基准模型。
  • 与自定义扩散方法相比,该方法在单一概念生成和多概念生成方面的CLIP得分显著提高。
  • 该方法能够生成与目标概念一致的交叉注意力映射,这是现有模型所没有的能力。
➡️

继续阅读