为大型语言模型校准口头概率

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

大型语言模型在多项选择问答中表现优异,最大softmax概率与正确答案高度相关。研究表明,优秀模型在59/60情况下的AUROC高于随机概率,最佳模型的AUROC平均为60%到69%。通过基于MSP选择性弃权可提升性能,使用预修正前的logit实验结果相似。

🎯

关键要点

  • 大型语言模型在多项选择问答任务中表现优异。
  • 最大softmax概率与正确答案的相关性强于错误答案。
  • 优秀模型在59/60情况下的AUROC高于随机概率。
  • 最佳模型的AUROC平均为60%到69%。
  • 基于MSP选择性弃权可以提升多项选择问答任务的性能。
  • 使用预修正前的logit实验结果与MSP实验相似。
➡️

继续阅读