MoLE:通过低秩专家组合增强以人为中心的文本到图像扩散
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对以人为中心的文本到图像生成中面部和手部图像自然性不足的问题,提出了一种新方法。我们收集了超过一百万张高质量人类图像的数据集,并提出低秩专家组合(MoLE)方法,通过低秩模块有效提升特定图像部分生成质量。研究结果表明,MoLE显著提高了人类图像生成的效果,具有良好的实用前景。
我们提出了一种新模型Subject-Diffusion,支持个性化图像生成,无需微调,仅需参考图像。构建了7600万图像的数据集,设计了统一框架,融合文本与图像语义,提升生成准确性。实验结果表明,该方法优于其他框架。