引入灵活单调多项选择项目反应理论模型与比特尺度

该研究解决了现有多项选择项目反应理论（IRT）模型在数据拟合上的不足，提出了单调多项选择（MMC）模型并结合自编码器进行拟合。研究结果表明，MMC模型在拟合优度上优于传统的名义反应IRT模型，并展示了如何将任一拟合IRT模型的潜在特质尺度转化为比率尺度，以便于分数解读和不同IRT模型的比较。

研究利用六种不同的LLMs（如GPT-3.5、GPT-4等）及其组合，通过采样方法生成类似人类的心理测量特性。结果显示，某些LLMs在大学代数方面的能力与大学生相当或更高。LLM校准的项目参数与人类高度相关，且与人类子集接近。多种增强策略中，重新采样方法效果最佳，将Spearman相关性从0.89提高到0.93。

GPT-3.5 GPT-4 LLMs 大学代数重新采样