为大型语言模型校准口头概率
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
大型语言模型在多项选择问答中表现优异,最大softmax概率与正确答案高度相关。研究表明,优秀模型在59/60情况下的AUROC高于随机概率,最佳模型的AUROC平均为60%到69%。通过基于MSP选择性弃权可提升性能,使用预修正前的logit实验结果相似。
🎯
关键要点
- 大型语言模型在多项选择问答任务中表现优异。
- 最大softmax概率与正确答案的相关性强于错误答案。
- 优秀模型在59/60情况下的AUROC高于随机概率。
- 最佳模型的AUROC平均为60%到69%。
- 基于MSP选择性弃权可以提升多项选择问答任务的性能。
- 使用预修正前的logit实验结果与MSP实验相似。
➡️