该研究探讨了大型语言模型中的不确定性量化,提出了多种统计度量标准,发现语义分散的平均值可有效评估响应质量。研究表明,准确性高的模型可能显示低确定性,指令微调会增加不确定性。通过新方法“Rank-Calibration”和Kernel Language Entropy(KLE),提高了不确定性估计的准确性,增强了模型的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。