小红花·文摘

该研究探讨了大型语言模型中的不确定性量化，提出了多种统计度量标准，发现语义分散的平均值可有效评估响应质量。研究表明，准确性高的模型可能显示低确定性，指令微调会增加不确定性。通过新方法“Rank-Calibration”和Kernel Language Entropy（KLE），提高了不确定性估计的准确性，增强了模型的可靠性。

CLUE：大型语言模型的概念级不确定性估计

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型中的不确定性估计与校准问题，提出了MARS和Rank-Calibration等方法，以提高模型的预测准确性和可靠性。研究表明，改进的不确定性估计能显著提升模型在高风险应用中的表现，并通过实验验证了这些方法的有效性。

不设计，学习：一种可训练的生成式 LLM 不确定性估计评分函数

BriefGPT - AI 论文速递 ·