小红花·文摘

昊铂 S600 上市：20 万级 SUV 的竞争，开始进入「少做选择题」阶段

爱范儿 ·

Randy Ridenour 在博客中介绍了如何使用 Org-mode 有序列表管理选择题，题目用数字编号，选项用字母编号，正确答案后加 *。这种格式便于操作，如移动题目和重编号，并提供了函数示例，用于将题目复制到 *scratch* 缓冲区和删除题目。

测验应用

DEV Community ·

本研究解决了大语言模型在高风险医疗任务中存在生成不实信息的问题。通过首次将符合预测框架应用于医疗多项选择题回答，提出了一种新的方法，将非符合性评分与正确选项的频率评分相关联。研究结果表明，该框架能够有效控制错误率和覆盖率，为大型语言模型的可靠性提供了有力支持。

我开发了一款智能个性评估前端应用

DEV Community ·

本研究解决了在评估大型语言模型时，多项选择题（MCQs）消除法的高计算成本和低效问题。提出了一种基于选项ID的消除法，实验结果表明，该方法显著提升了模型性能，并增强了推理能力。此外，该方法在少量示例设置中同样有效，能够与去偏差方法结合，进一步提高模型表现。

Kubernetes CKAD考试：选择题（MCQ）

DEV Community ·

本研究针对教育领域中大型语言模型（LLMs）的成本效益进行了调查，特别关注这些模型在回答多项选择题（MCQs）时的表现。通过使用不同规模的LLaMA-2预训练模型以及教材作为微调材料，我们发现基于教材的小型微调模型在准确度上优于大型通用模型，表明LLMs在回答MCQs方面更加经济适用。

经济适用的微调大型语言模型为课程特定的多项选择题提供更好的答案

BriefGPT - AI 论文速递 ·

本研究解决了将大型语言模型（LLMs）有效应用于多项选择题（MCQ）回答过程中的挑战，特别是由于幻觉和不清晰提示所导致的问题。研究创新性地微调了微软的PHI-3模型，并设计了优化提示，以提升其性能，最终结果显示PHI-3在回答MCQ时的表现显著改善，具有更高的准确性和较低的困惑度。这为在自适应学习系统和教育评估中的有效模型应用提供了重要基础。

（WhyPHI）为多项选择题回答微调PHI-3：方法、结果与挑战

BriefGPT - AI 论文速递 ·

本文探讨了选择题（MCQs）作为有效学习工具的角色，尤其是在与开放式回答问题的比较中。研究发现，在学习效果上，选择题与开放性回答表现无显著差异，但选择题的完成时间显著更短，表明在时间有限的情况下，选择题更有效率。此外，利用GPT-4模型对开放式回答进行自动评分，展现了在低风险评估方面的潜力。

Eaxeli 测验 API

DEV Community ·

本研究解决了现有多项选择题回答基准未能全面评估视频语言模型（VLMs）推理能力的问题，特别是在选择偏差方面。通过引入后处理校准技术BOLD，研究发现减少选择偏差不仅提高了解偏差度量指标，还改善了整体模型性能，包括准确率和F1均值。该方法提供了一种更具成本效益和时间效益的选择偏差缓解方案。

解决盲目猜测：视频语言模型中多项选择题回答选择偏差的校准

BriefGPT - AI 论文速递 ·

大语言模型在科研领域应用普及，但缺乏对其在实际科学任务中性能的评估。FutureHouse Inc.推出语言Agent生物学基准数据集，用于评估AI系统在生物学研究中的表现。研究人员发现不同模型在不同任务中表现差异大，尤其在信息检索任务中存在问题。模型在处理DNA和蛋白质序列的任务上表现不佳，人类表现优于模型。

全新生物学基准数据集LAB-Bench震撼开源！覆盖8大任务，超2.4K选择题

HyperAI超神经 ·

FutureHouse Inc.发布了LAB-Bench生物学基准数据集，用于评估人工智能系统在各种生物研究任务中的性能。数据集包括2400多个多项选择题，涵盖文献检索、图表解释、表格解释、数据库访问、协议编写以及DNA和蛋白质序列的理解和处理等主题。研究人员评估了不同模型在文献回忆、补充材料信息检索以及表格和协议数据解释等任务中的表现。结果显示，虽然模型在某些任务中表现良好，但在需要DNA和蛋白质序列处理的任务中表现较差。总体而言，人类在实际研究任务中的表现仍然优于模型。