该文章介绍了WinoViz评估数据集,用于测试语言模型在不同语境下理解物体变体视觉属性的推理能力。研究发现大型语言模型在实用推理方面表现较好,但在多跳数据方面性能下降。视觉语言模型优于仅语言模型。机器生成图像的模型在任务中表现不佳。
完成下面两步后,将自动完成登录并继续当前操作。