小红花·文摘

大型语言模型在多项选择问答中表现优异，最大softmax概率与正确答案高度相关。研究表明，优秀模型在59/60情况下的AUROC高于随机概率，最佳模型的AUROC平均为60%到69%。通过基于MSP选择性弃权可提升性能，使用预修正前的logit实验结果相似。