GroundingBooth: 文本到图像的定制基础
发表于: 。本研究针对现有文本到图像定制方法中空间关系控制不足的问题,提出了GroundingBooth框架,该框架实现了前景和背景对象的零-shot 实例级空间定位。通过引入文本图像定位模块和掩码交叉注意力层,我们的模型能够生成布局精准且身份保持的个性化图像,并支持多对象的定制,显著超越了现有方法的表现。
本研究针对现有文本到图像定制方法中空间关系控制不足的问题,提出了GroundingBooth框架,该框架实现了前景和背景对象的零-shot 实例级空间定位。通过引入文本图像定位模块和掩码交叉注意力层,我们的模型能够生成布局精准且身份保持的个性化图像,并支持多对象的定制,显著超越了现有方法的表现。