BriefGPT - AI 论文速递 ·

DiVERT: 使用代表文本的变量错误生成干扰项的数学多项选择题

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本研究探讨了大型语言模型在自动生成多项选择题干扰项方面的能力，发现其在预测学生常见错误上表现较弱。通过评估生成的干扰项和反馈信息，提出了改进方向，并展示了上下文感知模型在生成高质量误选项方面的优势。此外，研究还创建了教育问题测试题库和多语言误选项词汇池，为未来研究提供支持。

🎯

关键要点

本研究探讨了大型语言模型在自动生成多项选择题干扰项方面的能力。
发现大型语言模型在预测学生常见错误或误解的能力较弱。
提出了一种引导大型语言模型生成相关干扰项的策略，利用题库自动检索题目作为上下文示例。
评估结果显示，教师评价中53%的生成干扰项被评为高质量，优于最先进的模型。
上下文感知模型在生成高质量误选项方面明显优于传统特征模型。
创建了298道涵盖多个学科和语言的教育问题测试题库，以及一个77K的多语言误选项词汇池。
提出了一种新的方法，通过过度生成和排名模型提高生成干扰项的质量，尽管人工编写的干扰项仍优于生成的干扰项。
调查显示，超过一半的数据集来自特定领域的教育来源，缺乏开放域和多模态的数据集。

❓

延伸问答

大型语言模型在生成多项选择题干扰项方面的表现如何？

大型语言模型在生成多项选择题干扰项时，虽然能生成数学上有效的干扰项，但对预测学生常见错误的能力较弱。

研究中提出了哪些改进生成干扰项的策略？

研究提出通过从题库自动检索题目作为上下文示例，引导大型语言模型生成相关干扰项的策略。

上下文感知模型与传统特征模型相比有什么优势？

上下文感知模型在生成高质量误选项方面明显优于传统特征模型。

研究中创建了什么样的教育问题测试题库？

研究创建了一个包含298道涵盖多个学科和语言的教育问题测试题库，以及一个77K的多语言误选项词汇池。

生成的干扰项质量如何评估？

生成的干扰项质量通过教师评价进行评估，结果显示53%的生成干扰项被评为高质量。

人工编写的干扰项与生成的干扰项相比如何？

尽管生成的干扰项质量有所提高，但人工编写的干扰项仍然优于生成的干扰项。

🏷️

标签

多项选择题大型语言模型学生错误干扰项教育测试

➡️

继续阅读

MetaOptics拟于美国亚利桑那大学部署DLW系统
（全球TMT 2026年07月22日讯）MetaOptics Ltd（Catalist：9MT）宣布，已签订协 […]
Quantinuum与软银联合发布《量子计算前沿》白皮书
（全球TMT 2026年07月22日讯）Quantinuum与SoftBank Corp.联合发布白皮书《量子 […]
制造业运营速度与第三方访问治理之间的差距日益扩大
(全球TMT 2026年07月22日讯)Secomea最新发布的《2026年工业远程访问状况》研究表明，许多组 […]
政策解读 | 中国人工智能安全治理政策标准全景梳理
摘要·治理体系全景核心理念：中国人工智能治理坚持“统筹发展和安全”“发展和安全并重”。在鼓励技术创新与产业应Read More
斯特兰蒂斯旗下部分车型将搭载Mobileye智能路网技术
（全球TMT 2026年07月22日讯）Mobileye宣布，其云增强高级驾驶辅助系统（ADAS）技术预计自2 […]
产教协同赋能 AI 创新，华为云高校公开课落地大连理工大学
7月10日预授课环节，华为云开发者运营使能专家路都行带来了“华为云码道（CodeArts）代码智能体原理与实战入门”议题，详细讲解华为云码道的核心能力、云...