本研究针对现有大型语言模型(LLMs)在知识评估方面过于侧重英语的问题,提出了一种新的阿拉伯语多选题数据集AraSTEM,旨在全面评估这些模型在STEM学科的知识。研究发现,许多现有模型在该数据集上表现不佳,强调了开发更本地化语言模型的必要性。
本研究提出了MMLU-CF,一个无污染的多选题基准,旨在解决现有多选题数据集在评估大型语言模型时的污染问题。通过引入多样化的数据来源和去污染规则,MMLU-CF提高了评估结果的可信性,确保了模型评估的难度和真实性。
本文介绍了T-SciQ方法,利用大语言模型(LLM)提升科学问题回答的性能,探讨其在工程教育中的应用,强调促进自主学习和减轻教师负担的潜力。同时,讨论了智能提示和插件对聊天机器人的影响,以及在教育中使用AI面临的挑战。研究评估了LLM在生成数学问题和干扰项的能力,发现其在复杂推理场景中的表现不足,并提出了改进方向。
本文评估了九个大语言模型在中英文问答数据集上的表现,发现模型在多选题中存在顺序敏感性。研究提出了衡量模型输出一致性和置信度的方法,并指出多选题的可靠性较低。尽管模型能生成形式良好的问题提示,但干扰项未能涵盖学生常见错误。因此,建议在使用多选题评估模型前需谨慎测试其任务理解能力。
本文总结了团队SCaLAR在《SemEval-2024任务5:民事诉讼中的法律论证》中的研究,提出了一种基于相似度和距离的无监督方法生成标签,并通过多种深度学习模型探索法律文本的复杂性。研究表明,该无监督系统在开发集和测试集上的宏F1得分显著提高,验证了其简单架构的有效性。
GPQA是一个448个多选题的高难度数据集,对非专家和AI系统都具有一定难度。需要开发可扩展的监督方法以提供可靠的人类监督和获取可靠信息的能力。
该文介绍了一种对齐的语言模型在多选题设置下多显示过于自信的输出答案的问题,并提出了易于实施且高效的校准方法。作者评估了对齐过程对语言模型的逻辑回归置信度校准的影响。
研究发现,大型语言模型中的多项选择题的选项编号与选择偏见密切相关。提出了一种名为PriDe的新方法,通过计算先验分布解决这一问题,将选项内容与编号分离。PriDe方法无需标签,推断过程中效果和计算效率更高。通过对不同领域样本训练,证明PriDe方法估计的先验分布具有良好的泛化能力,具有实用潜力。
完成下面两步后,将自动完成登录并继续当前操作。