小红花·文摘

该研究提出了一个新的基准系统GRASP，用于评估视频多模式大型语言模型（LLMs）的语言理解和物理理解能力。研究发现当前模型在语言理解和直观物理方面存在重大缺陷，强调了基准系统对监测未来模型进展的重要性。