该研究使用六种不同的语言模型(LLMs)通过采样方法产生类似于人类答案的心理测量特性的回答,探索教育测量的有效性。结果显示,某些LLMs在大学代数方面的能力与大学生相当或更高,并且与人类校准的对应物具有很高的相关性。重新采样方法被证明效果最好,提高了Spearman相关性。
完成下面两步后,将自动完成登录并继续当前操作。