面向概念驱动文本到图像生成的个性化残差
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种用于处理多概念输入图像的文本本地化模型,采用交叉注意力引导方法建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并且能够生成与目标概念一致的交叉注意力映射。
🎯
关键要点
- 本文介绍了一种文本本地化的文本到图像模型,用于处理多概念输入图像。
- 现有的主题驱动模型主要依赖于单一概念的输入图像,处理多概念时面临困难。
- 提出的模型在微调过程中采用交叉注意力引导方法,建立目标概念的视觉表示与标识符令牌之间的连接。
- 实验结果显示,该方法在图像保真度和图像文本对齐方面优于基准模型。
- 与自定义扩散方法相比,该方法在单一概念生成的 CLIP-I 得分提高 7.04% 和 8.13%,多概念生成的 CLIP-T 得分提高 2.22% 和 5.85%。
- 该方法能够生成与目标概念一致的交叉注意力映射,这是现有模型所不具备的能力。
➡️