服装对齐器:通过检索增强多级校正的文本到服装生成
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了现有文本到图像模型在服装生成中面临的细粒度语义失配问题,尤其在服装组件的数量、位置和相互关系上。提出的GarmentAligner模型通过检索增强的多级校正,提高了组件级的语义对齐,实验结果表明,该模型在保真度和细粒度语义对齐方面优于现有竞争者。
StableGarment是一个统一框架,用于解决以服装为中心的生成任务,包括文本到图像、可控的文本到图像、风格化的文本到图像和鲁棒的虚拟试衣。通过开发一个具有加性自注意力(ASA)层的服装编码器和专用的试衣ControlNet,以及生成高质量合成数据的新数据引擎,我们的方法在虚拟试衣方面达到了最先进的结果,并在各种以服装为中心的图像生成方面展示了高灵活性和广泛的潜在应用。