GRASP: 用于评估多模态语言模型中语言引用与情境物理理解的新型基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。该研究提出 GRASP,这是一个用于评估基于视频多模式大型语言模型(LLMs)的语言理解和物理理解能力的新的基准。通过利用 Unity 模拟技术,这一评估通过两级方法完成。初始级别测试语言理解能力,通过评估模型将简单文本描述与视觉信息联系起来的能力。第二级别评估模型对直观物理原理(如物体的永恒性和连续性)的理解能力。除了发布基准系统,研究还使用它来评估几种最新的多模式...
该研究提出了一个新的基准系统GRASP,用于评估视频多模式大型语言模型(LLMs)的语言理解和物理理解能力。研究发现当前模型在语言理解和直观物理方面存在重大缺陷,强调了基准系统对监测未来模型进展的重要性。