RelationBooth:面向关系感知的定制对象生成
原文中文,约500字,阅读约需2分钟。发表于: 。该研究解决了现有定制图像生成模型忽视生成图像中对象之间关系的问题。通过提出RelationBooth框架,该方法通过精心设计的数据集实现身份与关系学习的解耦,关键模块有效生成准确自然的关系并避免对象重叠混淆。实验证明,RelationBooth在多个基准测试中生成精确关系的能力优于其他模型,且成功保留对象的身份信息,具有显著的应用潜力。
现有文本到图像系统未能准确反映物体间的空间关系。为此,提出SR4G数据集,包含990万个图像标题对,旨在提升模型性能。微调稳定扩散模型后,VISOR指标提升9点,且在未见过的对象上依然有效。数据集和代码将公开发布。