自校正的 LLM 控制扩散模型

原文约300字,阅读约需1分钟。发表于:

使用 Self-correcting LLM-controlled Diffusion (SLD) 框架,该研究提出了一种迭代闭环过程,能够根据输入的提示生成图像、评估其与提示的对齐性,并纠正生成图像中的不准确性,从而提高文本到图像生成的正确性。该研究还发现,通过调整 LLM 的指令,SLD 可以执行图像编辑任务,弥合文本到图像生成与图像编辑流程之间的差距。

利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中。生成的全局场景经过迭代细化,以确保与文本描述的一致性。经用户研究验证,我们的方法在从错综复杂的文本输入中生成连贯详细场景方面比传统扩散模型更好。

相关推荐 去reddit讨论