本文介绍了Object State Captioning和State Change Representation (OSCaR) 数据集,提出了一种评估多模态大型语言模型的方法,强调现有模型在理解物体状态变化方面的不足。开发了VidOSC和HowToChange基准,提升了视频理解的准确性,并通过实验验证了新方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。