本研究探讨了大型语言模型(LLM)评估方法的滞后问题,提出了LLM心理测量学这一新领域,旨在通过心理测量工具提升LLM的评估,促进人本中心AI系统的社会利益实现。
本研究提出了一种心理测量框架,定义了五种基本空间能力,并对13种视觉语言模型进行了基准测试,结果显示其表现明显低于人类,为空间智能评估提供了工具和方法论基础。
完成下面两步后,将自动完成登录并继续当前操作。