小红花·文摘

本研究探讨了预训练视觉-语言模型（VLM）在编码对象状态方面的不足。通过构建ChangeIt-Frames数据集，评估多个VLM模型，发现它们在对象识别上表现良好，但在区分物理状态上存在显著不足。研究提出了三大改进方向，以提升VLM模型的能力。