SingleInsert:向文本 - 图像模型中从单幅图像插入新概念以实现灵活编辑
原文约200字/词,阅读约需1分钟。发表于: 。该研究旨在解决文本到图像模型中前景和背景相互纠缠的问题,通过提出的 SingleInsert 方法,实现了单图像到文本的反转,以及高质量图像生成和编辑灵活性。
该研究通过微调预训练文本到图像扩散模型中的文本嵌入,实现了低成本的自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。该方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。