评估多模态生成模型中的组成场景理解

📝

内容提要

本研究针对计算机视觉系统在理解由多个对象及其关系组成的复杂场景方面的能力缺口进行评估。我们通过比较当前生成的文本到图像模型(DALL-E 3)与多模态视觉语言模型(如GPT-4V等)在组成视觉处理能力方面的表现,发现虽然这些系统在解决组合和关系任务方面有了显著改进,但其性能仍明显低于人类参与者,尤其是在涉及多个对象和复杂关系的场景中。这些结果凸显了进一步提高视觉场景组成理解能力的必要性。

➡️

继续阅读