大型语言模型在多项选择问答中表现优异,最大softmax概率与正确答案高度相关。研究表明,优秀模型在59/60情况下的AUROC高于随机概率,最佳模型的AUROC平均为60%到69%。通过基于MSP选择性弃权可提升性能,使用预修正前的logit实验结果相似。
本研究提出了一种新颖的模型DCQA,用于解决多项选择问答中选项语义相似的问题。该模型通过识别和消除选项间的共性,更有效地利用选项间的细微差别进行推理。实验结果显示,DCQA在多个基准测试中优于传统模型,证明了其有效性。
我们发布了TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU+是一个多项选择问答数据集,包括66个学科。与其前身TMMLU相比,TMMLU+的规模增加了六倍,学科分布更加平衡。我们公开发布了我们的数据集和相应的基准源代码。
本文评估了简洁的思路链提示对GPT-3.5和GPT-4在多项选择问答基准上的影响。结果显示,CCoT使得回答长度减少了48.70%,对问题解决性能影响微乎其微。然而,在数学问题上,使用CCoT的GPT-3.5表现出了27.69%的性能惩罚。总体而言,CCoT降低了每个标记的成本平均22.67%。这些结果对于AI系统工程师和LLM研究人员具有实际意义。
完成下面两步后,将自动完成登录并继续当前操作。