该研究评估了OpenAI的GPT-3.5和GPT-4模型在心理测量学中的表现,发现GPT-4在一般描述下与人类相似,但在具体人口统计信息下表现较差。研究提出了一种自适应测试框架,以更准确地评估模型能力。GPT-4在主题知识、数理推理和编程方面表现优异,适用于教育评估。此外,研究还探讨了大型语言模型在评分开放式问题中的一致性和准确性,显示其在教育反馈中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。