常识 T2I 挑战:文本到图像生成模型能否理解常识?
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。我们评估模型是否能进行视觉常识推理,即生成与文本提示相符的图像。我们发现图像合成与真实生活照片之间仍存在差距。我们的目标是将此作为常识检查的高质量评估基准,促进实际生活图像生成的进展。
🎯
关键要点
- 提出了一个新的任务和基准,称为常识 - T2I,用于评估文本到图像生成模型的能力。
- 通过对抗性的文本提示评估模型的视觉常识推理能力。
- 数据集由专家策划,包含细粒度标签以帮助分析模型行为。
- 对各种最先进的 T2I 模型进行评测,发现图像合成与真实生活照片之间存在显著差距。
- DALL-E 3 模型在常识 - T2I 上的准确率为 48.92%,稳定的扩散 XL 模型为 24.92%。
- GPT 强化的提示未能解决这一挑战,并分析了可能导致不足的原因。
- 目标是将常识 - T2I 作为高质量评估基准,促进实际生活图像生成的进展。
➡️