通过引发忠实度来校准大型语言模型的置信度
原文中文,约300字,阅读约需1分钟。发表于: 。通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在 4 个 MCQA 数据集上对 6 个 RLHF-LM 进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标 IPR 和 CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
研究者提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。研究者还提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论。希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。