PhyBench:用于评估文本到图像模型的物理常识基准
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该文章介绍了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。作者评测了各种最先进的模型,并发现图像合成与真实生活照片之间仍存在很大差距。作者的目标是将常识 - T2I 作为高质量评估基准,促进实际生活图像生成的进展。
🎯
关键要点
-
提出了一个新的任务和基准,称为常识 - T2I,用于评估文本到图像生成模型的能力。
-
通过对抗性的文本提示评估模型的视觉常识推理能力。
-
数据集由专家策划,包含细粒度标签以分析模型行为。
-
评测结果显示,图像合成与真实生活照片之间存在很大差距。
-
DALL-E 3 模型在常识 - T2I 上的准确率为 48.92%,稳定的扩散 XL 模型为 24.92%。
-
GPT 强化的提示未能解决这一挑战,分析了导致不足的原因。
-
目标是将常识 - T2I 作为高质量评估基准,促进实际生活图像生成的进展。
➡️