本文介绍了一种文本本地化的文本到图像生成模型,旨在处理多概念输入图像。该模型通过交叉注意力引导方法有效分解多个概念并建立视觉表示。实验结果表明,该方法在图像保真度和文本对齐方面优于现有模型,且在生成单一和多概念图像时表现出色,具备较高的计算效能和记忆优势。
该研究提出了一种文本本地化的文本到图像模型,通过交叉注意力引导方法建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并提高了单一概念和多概念生成的得分。该方法还能够生成与目标概念一致的交叉注意力映射。
完成下面两步后,将自动完成登录并继续当前操作。