小红花·文摘

本文评估了九个大语言模型在中英文问答数据集上的表现，发现模型在多选题中存在顺序敏感性。研究提出了衡量模型输出一致性和置信度的方法，并指出多选题的可靠性较低。尽管模型能生成形式良好的问题提示，但干扰项未能涵盖学生常见错误。因此，建议在使用多选题评估模型前需谨慎测试其任务理解能力。