小红花·文摘

该研究评估了OpenAI的GPT-3.5和GPT-4模型在心理测量学中的表现，发现GPT-4在一般描述下与人类相似，但在具体人口统计信息下表现较差。研究提出了一种自适应测试框架，以更准确地评估模型能力。GPT-4在主题知识、数理推理和编程方面表现优异，适用于教育评估。此外，研究还探讨了大型语言模型在评分开放式问题中的一致性和准确性，显示其在教育反馈中的潜力。