该研究探讨了大型语言模型(LLM)生成的不确定性,提出了新的度量标准来量化解释的不确定性。研究发现,口头化不确定性不可靠,而探测不确定性与解释忠实度相关。通过新方法KLE,量化模型输出的语义不确定性,提升了LLM在安全关键场景中的可信度。此外,研究提出了Luq-Ensemble方法,通过集成多个模型的响应来提高事实准确性。
完成下面两步后,将自动完成登录并继续当前操作。