小红花·文摘

该研究探讨了大型语言模型（LLMs）在自然语言生成中的不确定性计量，提出了多种统计度量标准。研究发现，语义分散的平均值是评估响应质量的可靠指标，并强调了不确定性在模型评估中的重要性。通过新方法Luq和Luq-Ensemble，研究提高了LLMs响应的事实准确性，解决了数据不确定性下的错误响应问题。

大语言模型评估中的黑箱不确定性量化方法

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型中的不确定性量化，提出了多种统计度量标准，发现语义分散的平均值可有效评估响应质量。研究表明，准确性高的模型可能显示低确定性，指令微调会增加不确定性。通过新方法“Rank-Calibration”和Kernel Language Entropy（KLE），提高了不确定性估计的准确性，增强了模型的可靠性。

CLUE：大型语言模型的概念级不确定性估计

BriefGPT - AI 论文速递 ·