小红花·文摘

100道SQL多项选择题及答案（SQL测试2026）

Planet MySQL ·

谷歌推出三项新的Gemini认证，旨在验证使用Gemini及其他AI工具的核心技能。通过评估者将获得可分享的数字证书，适用于职业发展学分。认证面向教育工作者、大学生和高中生，所有考试为多项选择题，免费提供，支持12种语言。

我们推出新的Gemini教育认证

The Keyword ·

本研究探讨了项目编写缺陷（IWF）与项目反应理论（IRT）参数之间的关系。分析7000多个多项选择题后发现，IWF数量与IRT的难度和区分度显著相关，尤其在生命科学和物理科学领域。这为未来评估方法研究提供了重要启示。

The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory

BriefGPT - AI 论文速递 ·

使用Langchain和Streamlit构建文档问答生成器

DEV Community ·

本研究提出了一种自动生成多项选择题的方法，以解决视觉问答基准评估不准确的问题。通过AutoConverter框架，研究者将开放性问题转化为多项选择题，降低了创建成本并实现了客观评估。实验表明，生成的问题具有挑战性，视觉语言模型的准确性与人工问题相当，建立了新的VMCBench基准，推动了评估标准化。

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

BriefGPT - AI 论文速递 ·

本研究探讨了多项选择题（MCQ）难度估计的问题，提出了一种利用大型语言模型的不确定性和文本特征的新方法，显著提高了预测准确性，并在公开数据集上取得了先进结果。

Are You Doubtful? It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation

BriefGPT - AI 论文速递 ·

我用原生JavaScript开发了一个《权力的游戏》问答应用——快来看看！

DEV Community ·

本文提出了ClinQG4QA框架，通过问答生成提升临床QA模型性能，并引入问题短语预测模块以增加多样性。研究探讨了多项选择题生成的创新方法，评估了大语言模型在双语问答中的表现，发现生成的题目与学习目标一致。研究表明，人工智能与教育者合作能提高多项选择题生成的效率，但干扰项的质量仍需改进。

MCQG-SRefine：带有迭代自我批评、修正和比较反馈的多选题生成与评估

BriefGPT - AI 论文速递 ·

本文介绍了多个问答系统的数据集及其研究进展，如CoQA和CommonsenseQA，强调多项选择题在评估大语言模型能力中的重要性。研究表明，现有模型在理解任务方面存在不足，需改进评估机制以更准确地衡量模型性能。

通过共性区分多项选择问答中的选择

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在自动生成多项选择题干扰项方面的能力，发现其在预测学生常见错误上表现较弱。通过评估生成的干扰项和反馈信息，提出了改进方向，并展示了上下文感知模型在生成高质量误选项方面的优势。此外，研究还创建了教育问题测试题库和多语言误选项词汇池，为未来研究提供支持。

DiVERT: 使用代表文本的变量错误生成干扰项的数学多项选择题

BriefGPT - AI 论文速递 ·

本研究分析了GPT-4在高等教育Python编程课程中生成多项选择题的能力，发现其生成的题目语言清晰、干扰项质量高，符合学习目标。与人类导师相比，GPT-4在某些场景下表现接近人类，显示出其在教育中的潜力与局限性。研究还探讨了大型语言模型在教学设计中的应用，强调人为监督的重要性，以确保教育材料的质量。

提升教育中主动学习的生成式人工智能：基于 GPT-3.5 和 GPT-4 的个性化测试题比较研究

BriefGPT - AI 论文速递 ·

这篇论文探讨了大型语言模型（如GPT-3）在多项选择题（MCQA）中的表现，提出了PriDe方法以减轻选择偏见，并评估了模型在不同样本设置下的能力。研究发现，文本答案比标记概率更鲁棒，且模型对选项顺序敏感。实验结果显示模型在多项选择任务中的一致性和性能，强调了在使用MCQ评估模型时需谨慎。

加强符号绑定使得大型语言模型可靠的多选选择器

BriefGPT - AI 论文速递 ·

该文介绍了使用预训练模型构成的管道AGenT Zero生成多项选择题的方法，避免了fine-tuning和高数据获取成本的问题。同时，该方法的评估流程适用于更广泛的问题和答案范围。

从教育文本中自动生成问题

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型中的多项选择题的选项编号与选择偏见密切相关。提出了一种名为PriDe的新方法，通过计算先验分布解决这一问题，将选项内容与编号分离。PriDe方法无需标签，推断过程中效果和计算效率更高。通过对不同领域样本训练，证明PriDe方法估计的先验分布具有良好的泛化能力，具有实用潜力。

关于大型语言模型在多选题中的选择偏差

BriefGPT - AI 论文速递 ·

我们开发了Xiezhi评估套件，包含220,000个多项选择题，用于评估47个大型语言模型。结果显示，这些模型在科学、工程、农学、医学和艺术领域的表现超过了人类平均水平，但在经济学、法学、教育学、文学、历史和管理学方面表现不佳。

逐九：为大型语言模型提供的多维多面的中文基准测试

BriefGPT - AI 论文速递 ·

介绍了一个使用语言模型进行多步逻辑推理的新系统，该系统将显式计划纳入推理过程中，能够在每一步上做出更明智的推理决策。实验结果显示，该系统在多项选择题回答任务中表现优于其他竞争系统，与GPT-3-davinci相当。削减研究证明显式计划对系统性能起重要作用。

混合思维树：快速思考与缓慢思考相结合的多跳视觉推理

BriefGPT - AI 论文速递 ·