多主题个性化
原文中文,约500字,阅读约需1分钟。发表于: 。创意故事插图需要多个字符或对象的一致互动,然而传统的文本到图像模型在生成具有多个个性化主题的图像时面临挑战,如主题渲染失真或文本描述无法呈现一致的主题互动。我们提出了多主题个性化(MSP)以减轻其中的一些挑战,通过使用稳定扩散实现 MSP,并将其与其他文本到图像模型进行评估,展示了其一致生成代表预期主题和互动的高质量图像。
最近的研究发现,个性化文本到图像(T2I)扩散模型在生成高保真度图像方面存在困难。研究人员提出了一种名为ComFusion的新方法,通过融合视觉主题实例和文本特定场景,生成高保真度的实例。ComFusion使用预训练模型和类别场景先验保留正则化方法来提高生成的保真度,并确保图像与实例和场景文本对齐。对T2I个性化中的各种基线进行了评估,证明了ComFusion的优越性。