常识 T2I 挑战:文本到图像生成模型能否理解常识?
原文中文,约600字,阅读约需2分钟。发表于: 。我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力,我们将其称为常识 - T2I。给定两个对抗性的文本提示,其中包含一组相同的动作词但存在细微差异,例如 “没有电的灯泡” 与 “有电的灯泡”,我们评估 T2I 模型是否能进行视觉常识推理,即生成与 “灯泡未点亮” 和 “灯泡点亮” 相符的图像。常识 - T2I...
我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。我们评估模型是否能进行视觉常识推理,即生成与文本提示相符的图像。我们发现图像合成与真实生活照片之间仍存在差距。我们的目标是将此作为常识检查的高质量评估基准,促进实际生活图像生成的进展。