小红花·文摘

本文介绍了Object State Captioning和State Change Representation (OSCaR) 数据集，提出了一种评估多模态大型语言模型的方法，强调现有模型在理解物体状态变化方面的不足。开发了VidOSC和HowToChange基准，提升了视频理解的准确性，并通过实验验证了新方法的有效性。