大型语言模型的心理测量辅助基准测试:数学能力的案例研究
原文中文,约500字,阅读约需2分钟。发表于: 。借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行了比较。同时发布了四个数据集,用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。
SciBench是一个用于测试大型语言模型(LLM)推理能力的基准套件。研究结果显示,LLM在解决复杂科学问题时表现不佳,综合得分仅为35.80%。通过用户研究,发现LLM存在十种问题解决能力方面的错误。预计SciBench将推动LLM的推理能力进一步发展,促进科学研究和发现。