CompAlign:通过复杂基准和精细反馈提高组合文本到图像生成的能力

📝

内容提要

本研究解决了现有文本到图像生成模型在多对象、属性和空间关系组合场景中的表现不足的问题。提出的CompAlign基准通过900个复杂的多目标生成提示,强调了3D空间关系的评估,同时引入CompQuest评价框架,提供对生成图像细粒度的反馈。研究发现,通过使用CompAlign框架进行调整的扩散模型在组合精确度上显著提高,特别是在复杂任务上超越了以前的方法。

➡️

继续阅读