本文提出了一种新框架,结合图像结构的形式化表征与具身认知理论,以提升代理推理系统的效率和可解释性,从而改善人机交互。
本研究提出了ECBench,这是一个高质量的基准,旨在系统评估大型视觉语言模型(LVLMs)的具身认知能力。ECBench通过多样的场景视频和开放问答格式,推动LVLMs的认知能力提升,为具身代理模型的开发奠定基础。
完成下面两步后,将自动完成登录并继续当前操作。