大型语言模型在多项选择问答中表现优异,最大softmax概率与正确答案高度相关。研究表明,优秀模型在59/60情况下的AUROC高于随机概率,最佳模型的AUROC平均为60%到69%。通过基于MSP选择性弃权可提升性能,使用预修正前的logit实验结果相似。
完成下面两步后,将自动完成登录并继续当前操作。