大型语言模型的心理测量辅助基准测试：数学能力的案例研究

借鉴心理测量学的知识，提出了一种新的基于心理测量的大型（多模态）语言模型（LLMs）评测框架 - PATCH。通过使用该框架，测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度，并且与 56 个人口进行了比较。同时发布了四个数据集，用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。

SciBench是一个用于测试大型语言模型（LLM）推理能力的基准套件。研究结果显示，LLM在解决复杂科学问题时表现不佳，综合得分仅为35.80%。通过用户研究，发现LLM存在十种问题解决能力方面的错误。预计SciBench将推动LLM的推理能力进一步发展，促进科学研究和发现。

SciBench 基准测试复杂科学问题大型语言模型推理能力错误