DiVERT: 使用代表文本的变量错误生成干扰项的数学多项选择题
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本研究探讨了大型语言模型在自动生成多项选择题干扰项方面的能力,发现其在预测学生常见错误上表现较弱。通过评估生成的干扰项和反馈信息,提出了改进方向,并展示了上下文感知模型在生成高质量误选项方面的优势。此外,研究还创建了教育问题测试题库和多语言误选项词汇池,为未来研究提供支持。
🎯
关键要点
- 本研究探讨了大型语言模型在自动生成多项选择题干扰项方面的能力。
- 发现大型语言模型在预测学生常见错误或误解的能力较弱。
- 提出了一种引导大型语言模型生成相关干扰项的策略,利用题库自动检索题目作为上下文示例。
- 评估结果显示,教师评价中53%的生成干扰项被评为高质量,优于最先进的模型。
- 上下文感知模型在生成高质量误选项方面明显优于传统特征模型。
- 创建了298道涵盖多个学科和语言的教育问题测试题库,以及一个77K的多语言误选项词汇池。
- 提出了一种新的方法,通过过度生成和排名模型提高生成干扰项的质量,尽管人工编写的干扰项仍优于生成的干扰项。
- 调查显示,超过一半的数据集来自特定领域的教育来源,缺乏开放域和多模态的数据集。
❓
延伸问答
大型语言模型在生成多项选择题干扰项方面的表现如何?
大型语言模型在生成多项选择题干扰项时,虽然能生成数学上有效的干扰项,但对预测学生常见错误的能力较弱。
研究中提出了哪些改进生成干扰项的策略?
研究提出通过从题库自动检索题目作为上下文示例,引导大型语言模型生成相关干扰项的策略。
上下文感知模型与传统特征模型相比有什么优势?
上下文感知模型在生成高质量误选项方面明显优于传统特征模型。
研究中创建了什么样的教育问题测试题库?
研究创建了一个包含298道涵盖多个学科和语言的教育问题测试题库,以及一个77K的多语言误选项词汇池。
生成的干扰项质量如何评估?
生成的干扰项质量通过教师评价进行评估,结果显示53%的生成干扰项被评为高质量。
人工编写的干扰项与生成的干扰项相比如何?
尽管生成的干扰项质量有所提高,但人工编写的干扰项仍然优于生成的干扰项。
➡️