利用 LLM - 回答者进行项目评估:一项心理测量分析

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究使用六种不同的语言模型(LLMs)通过采样方法产生类似于人类答案的心理测量特性的回答,探索教育测量的有效性。结果显示,某些LLMs在大学代数方面的能力与大学生相当或更高,并且与人类校准的对应物具有很高的相关性。重新采样方法被证明效果最好,提高了Spearman相关性。

🎯

关键要点

  • 该研究使用六种不同的语言模型(LLMs)探索教育测量的有效性。
  • 研究中使用的LLMs包括GPT-3.5、GPT-4、Llama 2、Llama 3、Gemini-Pro和Cohere Command R Plus。
  • 结果显示某些LLMs在大学代数方面的能力与大学生相当或更高。
  • LLM-受试者校准的项目参数与人类校准的对应物具有很高的相关性。
  • 多种增强策略被评估,重新采样方法效果最好。
  • 重新采样方法将Spearman相关性从0.89提高到0.93。
➡️

继续阅读