小红花·文摘

该文章介绍了WinoViz评估数据集，用于测试语言模型在不同语境下理解物体变体视觉属性的推理能力。研究发现大型语言模型在实用推理方面表现较好，但在多跳数据方面性能下降。视觉语言模型优于仅语言模型。机器生成图像的模型在任务中表现不佳。