小红花·文摘

该研究探讨了大型语言模型（LLM）生成的不确定性，提出了新的度量标准来量化解释的不确定性。研究发现，口头化不确定性不可靠，而探测不确定性与解释忠实度相关。通过新方法KLE，量化模型输出的语义不确定性，提升了LLM在安全关键场景中的可信度。此外，研究提出了Luq-Ensemble方法，通过集成多个模型的响应来提高事实准确性。