文本定位:为主题驱动的文本到图像生成分解多概念图像

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究提出了一种文本本地化的文本到图像模型,通过交叉注意力引导方法建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并提高了单一概念和多概念生成的得分。该方法还能够生成与目标概念一致的交叉注意力映射。

🎯

关键要点

  • 该研究提出了一种文本本地化的文本到图像模型,旨在处理多概念输入图像。

  • 现有的主题驱动模型主要依赖于单一概念的输入图像,处理多概念时面临困难。

  • 研究采用了一种新颖的交叉注意力引导方法,建立目标概念的视觉表示与标识符令牌之间的连接。

  • 实验结果表明,该方法在图像保真度和图像文本对齐方面优于或相当于基准模型。

  • 单一概念生成的CLIP-I得分提高了7.04%至8.13%,多概念生成的CLIP-T得分提高了2.22%至5.85%。

  • 该方法能够生成与目标概念一致的交叉注意力映射,这是现有模型所不具备的能力。

➡️

继续阅读