大型语言模型在多项选择问答中表现优异,最大softmax概率与正确答案高度相关。研究表明,优秀模型在59/60情况下的AUROC高于随机概率,最佳模型的AUROC平均为60%到69%。通过基于MSP选择性弃权可提升性能,使用预修正前的logit实验结果相似。
介绍了一种名为SAPS的新算法,通过丢弃除最大softmax概率以外的所有概率值,最小化非符合度分数对概率值的依赖,生成小型集合并传达逐个实例的不确定性。SAPS具有有限样本覆盖保证,预期集合大小小于APS。实验验证了SAPS减小了预测集,提高了预测集的条件覆盖率和适应性。
完成下面两步后,将自动完成登录并继续当前操作。